پديد آورنده :
نادري راد، عارف
عنوان :
تشخيص اشيا سهبعدي چند دوربيني در نماي ديد پرنده با كاربرد در وسايل نقليه خودران
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
توصيفگر ها :
چند دوربيني , تشخيص اشيا سهبعدي , يادگيري عميق , نماي ديد پرنده , وسايلنقليه خودران
تاريخ ورود اطلاعات :
1403/04/23
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
آموزش الكترونيكي
تاريخ ويرايش اطلاعات :
1403/04/24
چكيده فارسي :
در سالهاي اخير، توسعه فناوريهاي تشخيص اشيا سهبعدي چند دوربيني پيشرفت چشمگيري داشته است و امكان تشخيص و رديابي دقيقتر و كارآمدتر اشيا را در محيطهاي پيچيده و پويا فراهم كرده است. يكي از چالشهاي كليدي در اين زمينه، بهبود توانايي مدلها براي تمركز مؤثر بر روي مكانهاي فضايي مربوطه در نماي ديد پرنده بوده و در عين حال فيلتر كردن ويژگيهاي نامربوط يا نويزدار است. در اين تحقيق، رويكرد جديدي براي تقويت ماژول ترانسفورمر با ادغام مكانيزم توجه براي وسايلنقليه خودران پيشنهاد شدهاست. اين رويكرد، به مدل اجازه ميدهد تا روي مناطق مهم تمركز بهتري داشتهباشد و مناطق نامربوط را ناديده بگيرد، كه منجر به بهبود عملكرد در وظايف تشخيص اشيا سهبعدي چند دوربيني در محيطهاي بهم ريخته ميشود. رويكرد پيشنهادي شامل چهار بلوك، كدگذار تصوير-نما، ترانسفورمر ديد، كدگذار BEV و سر ويژه-وظيفه است. روش پيشنهادي از روشهاي مبتني بر تصوير موجود براي تشخيص اشيا سهبعدي در نماي ديد پرنده و فضاي سهبعدي بهتر عمل ميكند و به عملكرد بالاتري در تشخيص BEV و تشخيص اشيا سهبعدي نسبت به الگوريتمهاي آخرين فناوريهاي روز دست مييابد. ارزيابي روي مجموعه داده nuScenes عملكرد ثابتي را در سطوح دشواري مختلف نشانميدهد، و چالشهاي بالقوه مربوط به تأخير زماني دوربين در سيستمهاي بلادرنگ را برجسته ميكند. كه تأخير زماني s083/0 دوربين منجر به افت mAP19%/3 و NDS 4%/8 شده و ميتوان تأثير قابلتوجه تأخير زمان را مشاهده كرد. هنگاميكه تأخير زماني به ميزان s3/0 افزايش مييابد، عملكرد آنها بهصورت قابلتوجه به ميزان mAP08%/26 و NDS 54%/36 كاهش مييابد.
چكيده انگليسي :
In recent years, advancements in multi-camera 3D object detection technologies have made significant progress, enhancing the accuracy and efficiency of detection and tracking objects in complex and dynamic environments. A key challenge in this field is improving models’ ability to focus effectively on relevant spatial locations in the bird's eye view while filtering out irrelevant or noisy features. This research proposes a new approach to strengthen the transformer module by integrating the attention mechanism for autonomous vehicles. This approach enables the model to focus on important regions and ignore irrelevant regions, resulting in enhanced performance in multi-camera 3D object detection tasks in cluttered environments. The proposed approach consists of four blocks: an image-view encoder, a vision transformer, a BEV encoder and a special-task head. The proposed method outperforms existing image-based methods for 3D object detection in bird's eye view and 3D space, and achieves high performance in BEV detection and improved performance in 3D detection. evaluation of the nuScenes dataset shows consistent performance at different difficulty levels, highlighting potential challenges related to camera time delay in real-time systems. Therefore, the time delay of 0.083s of the camera led to a drop of 3.19% mAP and 8.4% NDS, and the significant effect of the time delay can be observed. When the time delay increases to 0.3s, their performance drops significantly to 26.08% mAP and 36.54% NDS.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
شيرين بقولي زاده , رسول امير فتاحي ورنوسفادراني