پديد آورنده :
تبردار سيچاني، نهال
عنوان :
تشخيص عابر پياده در فضاي سهبعدي با استفاده از يادگيري عميق مبتني بر آشكارسازي تكمرحلهاي
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
هشت، 84ص. : مصور، جدول، نمودار
توصيفگر ها :
يادگيري ماشين , بينايي كامپيوتر , يادگيري عميق , تشخيص شيء سهبعدي , تشخيص عابر پياده , ابرهاي نقطهاي , وسيلهي نقليهي خودران (AV)
تاريخ ورود اطلاعات :
1403/02/24
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/05/24
چكيده فارسي :
با توجه به پيشرفت سريع علم و فنآوري، تشخيص اشياء به يك حوزهي تحقيقاتي جذاب در بينايي كامپيوتر تبديل شدهاست. رانندگي خودران يكي از اميدواركنندهترين راهحلها براي محافظت از انسان در برابر تصادفات شديد، نمونهاي از كاربرد تشخيص اشياء است. يك وسيلهي نقليهي خودران (AV) براي كاركرد قابل اعتماد نياز به درك دقيقي از محيط اطراف خود دارد،كه معمولاً از يادگيري ماشين (يا يادگيري عميق) استفاده ميكند. بدين منظور دادههاي حسي به اطلاعات معنايي تبديل و رانندگي مستقل را امكانپذير ميكند. تشخيص اشياء يك عملكرد اساسي اين سيستم ادراك است. در سالهاي اخير، اكثر چارچوبهاي تشخيص شيء پيشنهادشده، دوبعدي هستند. با اين حال، روشهاي دوبعدي اطلاعات عمقي را كه براي وظايف رانندگي مانند برنامهريزي مسير، پيشبيني حركت و اجتناب از برخورد لازم است را ارائه نميكنند، در نتيجه نميتوان از آنها براي حل مسائل در دنياي واقعي استفاده كرد. براي حل مشكل اخيراً پژوهشگران به روشهاي ديد سهبعدي پرداختهاند. با وجود اين، تحقيقات اندكي به جمعآوري و ساختار اين دانش رو به رشد پرداختهاند. بنابراين، هدف ما بررسي و مطالعه روشهاي تشخيص اشياء سهبعدي است كه اطلاعات دقيقتري از اندازه و مكان شيء ارايه ميدهند. روشهاي مختلفي براي اين منظور وجود دارد كه در اين پاياننامه ما فقط بر روي روش مبتني بر يادگيري عميق مبتني بر ابر نقطه تمركز ميكنيم. با استفاده از ايدهي شبكهي DenseNet و طراحي ماژول تجميع ويژگيهاي مكاني- معنايي (SSFA) روش جديدي را براي بهبود نتايج تشخيص عابر پياده با استفاده از دادههاي ابرهاي نقطهي سهبعدي در فضاي باز ارائه ميكنيم. اين ايده بر روي دو آشكارساز شيء تكمرحلهاي مطمئن آگاه از IoU ٫ (CIA-SSD) و آشكارساز شيء تكمرحلهاي خودجمعشده (SE-SSD) پيادهسازي و اجرا شدهاست. در روش پيشنهادي دسترسي به اطلاعات لايههاي قبلي شبكههاي عميق، منجر به استخراج ويژگيهاي غنيتر شده و باعث افزايش دقت تشخيص عابر پياده شده است. درنهايت، ما پس از تجزيهوتحليل روش پيشنهادي خود، نتايج تجربي آن را با روشهاي قبلي از نظر دقت و سرعت مقايسه ميكنيم. نتايج تجربي روش پيشنهادي براي تشخيص عابر پياده سهبعدي در مجموعه دادهي KITTI نشان ميدهد كه با كسب متريك AP متوسط 44/03٪ روي آشكارساز CIA-SSD و AP متوسط 44/49٪ روي آشكارساز SE-SSD به عملكرد بالاتري نسبت به آشكارسازهاي پايه دستيافته است.
چكيده انگليسي :
The rapid advancement of science and technology has led to promising research in computer vision, particularly in the field of object detection. Self-driving technology is a promising solution for preventing severe accidents. To achieve reliable autonomous driving, a deep understanding of the surrounding environment is crucial, often achieved through machine learning and deep learning, which convert sensory data into meaningful information. Object detection is a fundamental perception function of these systems and has been tackled through various approaches. In recent years, most proposed object detection frameworks have been two-dimensional (2D). However, these 2D methods cannot provide depth information essential for driving tasks like path planning, motion prediction, and collision avoidance, limiting their real-world applicability. Recent research has focused on 3D object detection. Despite this, there is a lack of organized knowledge in this area. Our objective is to investigate and study 3D object recognition methods that provide more accurate information about the object's size and location. In this thesis, we specifically concentrate on the deep learning-based approach. We categorize these approaches based on input data and focus on the point cloud-based approach. Our study introduces a novel method for 3D pedestrian detection in open environments using the DenseNet architecture and a spatial-semantic feature aggregation module called SSFA. Our method is applied to two advanced single-stage object detectors, CIA-SSD (Confidence IoU Aware Single-Stage Detector) and SE-SSD (Self-Ensembled Single-Stage Detector). By utilizing information from previous layers, the proposed approach enhances feature extraction, leading to improved pedestrian detection accuracy. We conclude by presenting and analyzing the proposed method and comparing its performance with previous techniques in terms of accuracy. The evaluation of the 3D pedestrian detection algorithm on the KITTI dataset demonstrates that our method achieves higher accuracy metrics, with a moderate average precision (moderate AP) of 44.03% on CIA-SSD and 44.49% on SE-SSD.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
نادر كريمي , حامد نريماني