چکیده:
قطعهبندی معنایی یکی از رایجترین خروجیهای پردازش تصویری برای خودروهای خودران مجهز به بینایی است. مدلهای مبتنی بر یادگیری عمیق جهت یاد گرفتن ویژگیهای محیطی جدید و با دامنه متفاوت نیازمند در اختیار داشتن انبوهی از داده هستند. اما فرآیند برچسبگذاری دستی این حجم از داده توسط انسان بسیار زمانبر خواهد بود. در حالی که رویکرد بسیاری از مقالات مبتنی بر آموزش مدلهای یادگیری عمیق با روش نظارتی است، در این مقاله از روش نیمه نظارتی جهت اعمال قطعهبندی معنایی بهره گرفته میشود. بهطور دقیقتر در این پژوهش، روش معلم- دانشآموز جهت برقراری تعامل میان مدلهای یادگیری عمیق به کار گرفته میشود. در ابتدا مدلهای DABNet و ContextNet در جایگاه معلم با استفاده از پایگاه داده BDD100K آموزش داده میشوند. با توجه به اهمیت قابلیت تعمیم پذیری و مقاوم بودن مدلهای مورد استفاده در خودروهای خودران، این معیارهای شبکههای معلم با شبیهسازی در نرمافزار CARLA مورد ارزیابی قرار گرفتهاند. سپس شبکههای معلم، پایگاه داده Cityscapes را بهطور کامل و بدون دخالت انسان در فرآیند آموزش با بهرهگیری از یادگیری نیمه- نظارتی به مدل FastSCNN آموزش دادهاند. برخلاف سایر رویکردهای نیمه- نظارتی، وجود دو پایگاه داده با اختلاف دامنه قابل توجه، روش معلم- دانشآموز را بیشتر به چالش خواهد کشید. نتایج نشان میدهد عملکرد مدل دانشآموز در کلاسهایی نظیر خودرو، انسان و جاده که شناسایی آنها از مهمترین اولویتهای خودرو خودران است بهترتیب به میزان 2/1%، 3% و 8/3% با برچسبگذاری دستی اختلاف دارد. همچنین میانگین دقت مدل دانشآموز نیز تنها 5/4% اختلاف عملکرد با مدلی دارد که آمادهسازی پایگاه داده آن نیازمند صرف زمان بسیار زیاد است.
Semantic segmentation is one of the most common outputs for vision-based autonomous vehicles. Deep neural networks need massive amount of data in order to learn new environment features with different domain. However, mentioned data always take too much time for humans to manually annotate. In this paper, we use teacher-student technique for deep models interaction. First, we train DABNet and ContextNet as teachers with BDD100K database. Also, we seek to analyze the generalization and robustness of teacher networks by evaluation on CARLA simulator. Finally, teacher networks train FastSCNN model automatically using Cityscapes database without any human interference. Results show that student’s performance in classes like vehicles, people and road which are probably the highest priority classes to detect, has only 1.2%, 3% and 3.8% accuracy difference respectively. Also, there is 4.5% drop for model’s mean intersection over union accuracy between teacher’s performance in comparison to the similar model which is trained on manual annotations.