شماره مدرك :
19530
شماره راهنما :
16883
پديد آورنده :
نادري راد، عارف
عنوان :

تشخيص اشيا سه‌بعدي چند دوربيني در نماي ديد پرنده با كاربرد در وسايل‌ نقليه خودران

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1403
صفحه شمار :
ش،71ص
توصيفگر ها :
چند دوربيني , تشخيص اشيا سه‌بعدي , يادگيري عميق , نماي ديد پرنده , وسايل‌نقليه خودران
تاريخ ورود اطلاعات :
1403/04/23
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
آموزش الكترونيكي
تاريخ ويرايش اطلاعات :
1403/04/24
كد ايرانداك :
23050984
چكيده فارسي :
در سال‌هاي اخير، توسعه فناوري‌هاي تشخيص اشيا سه‌بعدي چند دوربيني پيشرفت چشمگيري داشته است و امكان تشخيص و رديابي دقيق‌تر و كارآمدتر اشيا را در محيط‌هاي پيچيده و پويا فراهم كرده است. يكي از چالش‌هاي كليدي در اين زمينه، بهبود توانايي مدل‌ها براي تمركز مؤثر بر روي مكان‌هاي فضايي مربوطه در نماي ديد پرنده بوده و در عين حال فيلتر كردن ويژگي‌هاي نامربوط يا نويزدار است. در اين تحقيق، رويكرد جديدي براي تقويت ماژول ترانسفورمر با ادغام مكانيزم توجه براي وسايل‌نقليه خودران پيشنهاد شده‌است. اين رويكرد، به مدل اجازه مي‌دهد تا روي مناطق مهم تمركز بهتري داشته‌باشد و مناطق نامربوط را ناديده بگيرد، كه منجر به بهبود عملكرد در وظايف تشخيص اشيا سه‌بعدي چند دوربيني در محيط‌هاي بهم ريخته مي‌شود. رويكرد پيشنهادي شامل چهار بلوك، كدگذار تصوير-نما، ترانسفورمر ديد، كدگذار BEV و سر ويژه-وظيفه است. روش پيشنهادي از روش‌هاي مبتني بر تصوير موجود براي تشخيص اشيا سه‌بعدي در نماي ديد پرنده و فضاي سه‌بعدي بهتر عمل مي‌كند و به عملكرد بالاتري در تشخيص BEV و تشخيص اشيا سه‌بعدي نسبت به الگوريتم‌هاي آخرين فناوري‌هاي روز دست مي‌يابد. ارزيابي روي مجموعه داده nuScenes عملكرد ثابتي را در سطوح دشواري مختلف نشان‌مي‌دهد، و چالش‌هاي بالقوه مربوط به تأخير زماني دوربين در سيستم‌هاي بلادرنگ را برجسته مي‌كند. كه تأخير زماني s083/0 دوربين منجر به افت mAP19%/3 و NDS 4%/8 شده و مي‌توان تأثير قابل‌توجه تأخير زمان را مشاهده كرد. هنگامي‌كه تأخير زماني به ميزان s3/0 افزايش مي‌يابد، عملكرد آن‌ها به‌صورت قابل‌توجه به ميزان mAP08%/26 و NDS 54%/36 كاهش مي‌يابد.
چكيده انگليسي :
In recent years, advancements in multi-camera 3D object detection technologies have made significant progress, enhancing the accuracy and efficiency of detection and tracking objects in complex and dynamic environments. A key challenge in this field is improving models’ ability to focus effectively on relevant spatial locations in the bird's eye view while filtering out irrelevant or noisy features. This research proposes a new approach to strengthen the transformer module by integrating the attention mechanism for autonomous vehicles. This approach enables the model to focus on important regions and ignore irrelevant regions, resulting in enhanced performance in multi-camera 3D object detection tasks in cluttered environments. The proposed approach consists of four blocks: an image-view encoder, a vision transformer, a BEV encoder and a special-task head. The proposed method outperforms existing image-based methods for 3D object detection in bird's eye view and 3D space, and achieves high performance in BEV detection and improved performance in 3D detection. eva‎luation of the nuScenes dataset shows consistent performance at different difficulty levels, highlighting potential challenges related to camera time delay in real-time systems. Therefore, the time delay of 0.083s of the camera led to a drop of 3.19% mAP and 8.4% NDS, and the significant effect of the time delay can be observed. When the time delay increases to 0.3s, their performance drops significantly to 26.08% mAP and 36.54% NDS.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
شيرين بقولي زاده , رسول امير فتاحي ورنوسفادراني
لينک به اين مدرک :

بازگشت