پديد آورنده :
بختياريان، علي
عنوان :
تشخيص سهبعدي اشياء مبتني بر تصاوير تكدوربيني در رانندگي خودران
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
هشت، 97ص. : مصور، جدول، نمودار
توصيفگر ها :
تشخيص سهبعدي اشياء , بينايي ماشين , رانندگي خودران , يادگيري عميق , تخمين عمق
تاريخ ورود اطلاعات :
1403/07/21
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/07/22
چكيده فارسي :
خودروهاي خودران و رباتها براي حركت نياز به درك سهبعدي از محيط پيرامون خود دارند. تشخيص سهبعدي اشياء يكي از مواردي است كه به درك سهبعدي محيط اطراف كمك ميكند. روشهاي موجود براي تشخيص سهبعدي اشياء بهطوركلي بر مبناي سه نوع دادهي ورودي مختلف شامل لايدار، استريو و تكدوربيني هستند. روشهاي تكدوربيني يا به بيان ديگر تكچشمي به علت سادگي پيادهسازي و همچنين هزينههاي پايينتر هميشه موردتوجه بودهاند. به علت نبود اطلاعات عمق در تصاوير موجود در روش تكدوربيني، اين روش با چالشهاي خاصي از جمله تخمين عمق روبهرو است. به علت اهميت ويژه تخمين عمق براي تشخيص سهبعدي تكدوربيني، در اين پژوهش يك روش پيشنهادي براي بهبود تخمين عمق بر مبناي انتقال سبك تصاوير ورودي ارائه شده است. اين روش پيشنهادي باعث بهبود نسبي 16 درصدي رو ي معيار 1a و بهبود نسبي 44 درصدي روي معيار AbsRel شد. در ادامهي اين پژوهش دو روش پيشنهادي براي بهبود نتايج تشخيص سهبعدي تك چشمي مطرح شده است. روش پيشنهادي اول استفاده از تصاوير بدون برچسب موجود در مجموعه داده با برچسبهاي ضعيف به عنوان پيش-آموزش و وزندهي اوليه شبكه است. اين روش باعث بهبود نسبي 8/25 درصدي روي معيار ارزيابي دقت متوسط شده است. روش پيشنهادي دوم براي بهبود تشخيص سهبعدي تكدوربيني ، الزام شبكه به درنظرگرفتن نسب عمق به ارتفاع اشياء طبق روابط هندسي موجود در تصوير است. اين روش پيشنهادي با اضافه كردن سر رگرسيون كمكي به شبكه پايه باعث بهبود نسبي 7/9 درصدي دقت متوسط براي تشخيص سهبعدي خودرو شده است.
چكيده انگليسي :
Autonomous vehicles and robots require a three-dimensional understanding of their surroundings to navigate effectively. One critical aspect that contributes to this 3D comprehension is object detection. Existing methods for 3D object detection generally rely on three different types of input data: LiDAR, stereo vision, and monocular (single-camera) vision. Monocular methods have consistently garnered attention due to their simpler implementation and lower costs. However, the absence of depth information in monocular images presents unique challenges, particularly in depth estimation. Given the crucial role of depth estimation in monocular 3D object detection, this research proposes a novel approach to enhance depth estimation based on input image style transfer. This proposed method resulted in a relative improvement of 16% in the a1 metric and a relative improvement of 44% in the AbsRel metric.Further in this research, two additional methods are proposed to improve monocular 3D object detection results. The first proposed method involves using unlabeled images from the dataset with weak labels for pre-training and initial network weighting. This approach led to a relative improvement of 8.25% in the mean average precision (mAP) evaluation metric. The second proposed method aims to improve monocular 3D object detection by enforcing the network to consider the depth-to-height ratio of objects according to geometric relationships within the image. This method, by adding an auxiliary regression head to the base network, resulted in a relative improvement of 9.7% in the mean average precision for car 3D detection.
استاد راهنما :
نادر كريمي , شادرخ سماوي
استاد داور :
محمدرضا احمدزاده , جلال ذهبي