شماره مدرك :
19780
شماره راهنما :
17086
پديد آورنده :
بختياريان، علي
عنوان :

تشخيص سه‌بعدي اشياء مبتني بر تصاوير تك‌دوربيني در رانندگي خودران

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1403
صفحه شمار :
هشت، 97ص. : مصور، جدول، نمودار
توصيفگر ها :
تشخيص سه‌بعدي اشياء , بينايي ماشين , رانندگي خودران , يادگيري عميق , تخمين عمق
تاريخ ورود اطلاعات :
1403/07/21
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/07/22
كد ايرانداك :
23072901
چكيده فارسي :
خودروهاي خودران و ربات‌ها براي حركت نياز به درك سه‌بعدي از محيط پيرامون خود دارند. تشخيص سه‌بعدي اشياء يكي از مواردي است كه به درك سه‌بعدي محيط اطراف كمك مي‌كند. روش‌هاي موجود براي تشخيص سه‌بعدي اشياء به‌طوركلي بر مبناي سه نوع داده‌ي ورودي مختلف شامل لايدار، استريو و تك‌دوربيني هستند. روش‌هاي تك‌دوربيني يا به بيان ديگر تك‌چشمي به علت سادگي پياده‌سازي و همچنين هزينه‌هاي پايين‌تر هميشه موردتوجه بوده‌اند. به علت نبود اطلاعات عمق در تصاوير موجود در روش تك‌دوربيني، اين روش با چالش‌هاي خاصي از جمله تخمين عمق روبه‌رو است. به علت اهميت ويژه تخمين عمق براي تشخيص سه‌بعدي تك‌دوربيني، در اين پژوهش يك روش پيشنهادي براي بهبود تخمين عمق بر مبناي انتقال سبك تصاوير ورودي ارائه شده است. اين روش پيشنهادي باعث بهبود نسبي 16 درصدي رو ي معيار 1a و بهبود نسبي 44 درصدي روي معيار AbsRel شد. در ادامه‌ي اين پژوهش دو روش پيشنهادي براي بهبود نتايج تشخيص سه‌بعدي تك چشمي مطرح شده است. روش پيشنهادي اول استفاده از تصاوير بدون برچسب موجود در مجموعه داده با برچسب‌هاي ضعيف به عنوان پيش-آموزش و وزن‌دهي اوليه شبكه است. اين روش باعث بهبود نسبي 8/25 درصدي روي معيار ارزيابي دقت متوسط شده است. روش پيشنهادي دوم براي بهبود تشخيص سه‌بعدي تك‌دوربيني ، الزام شبكه به درنظرگرفتن نسب عمق به ارتفاع اشياء طبق روابط هندسي موجود در تصوير است. اين روش پيشنهادي با اضافه كردن سر رگرسيون كمكي به شبكه پايه باعث بهبود نسبي 7/9 درصدي دقت متوسط براي تشخيص سه‌بعدي خودرو شده است.
چكيده انگليسي :
Autonomous vehicles and robots require a three-dimensional understanding of their surroundings to navigate effectively. One critical aspect that contributes to this 3D comprehension is object detection. Existing methods for 3D object detection generally rely on three different types of input data: LiDAR, stereo vision, and monocular (single-camera) vision. Monocular methods have consistently garnered attention due to their simpler implementation and lower costs. However, the absence of depth information in monocular images presents unique challenges, particularly in depth estimation. Given the crucial role of depth estimation in monocular 3D object detection, this research proposes a novel approach to enhance depth estimation based on input image style transfer. This proposed method resulted in a relative improvement of 16% in the a1 metric and a relative improvement of 44% in the AbsRel metric.Further in this research, two additional methods are proposed to improve monocular 3D object detection results. The first proposed method involves using unlabeled images from the dataset with weak labels for pre-training and initial network weighting. This approach led to a relative improvement of 8.25% in the mean average precision (mAP) eva‎luation metric. The second proposed method aims to improve monocular 3D object detection by enforcing the network to consider the depth-to-height ratio of objects according to geometric relationships within the image. This method, by adding an auxiliary regression head to the base network, resulted in a relative improvement of 9.7% in the mean average precision for car 3D detection.
استاد راهنما :
نادر كريمي , شادرخ سماوي
استاد داور :
محمدرضا احمدزاده , جلال ذهبي
لينک به اين مدرک :

بازگشت