توصيفگر ها :
مكانيابي و نقشهبرداري همزمان , محيط پويا , اطلاعات معنايي , بينايي ماشين , شناسايي الگو
چكيده فارسي :
مكانيابي و نقشهبرداري همزمان (SLAM) به فرآيندي اطلاق ميشود كه در آن يك حسگر متحرك بهصورت همزمان، موقعيت خود را در يك محيط ناشناخته تخمين ميزند و نقشهاي از همان محيط توليد ميكند، بدون آنكه دسترسي به نقشه يا مكان اوليه داشتهباشد. بهطور كلي براساس محيط و كاربرد ميتوان از انواع حسگر ليزري، شتابسنج، تصويري و يا تركيبي از آنها استفاده كرد. بهعلت مزاياي استفاده از حسگرهاي تصويري همچون پايين بودن هزينه، ارائه اطلاعات غني و مقياسپذير بودن؛ در سالهاي اخير استفاده از انواع دوربين باعث محبوبيت مكانيابي و نقشهبرداري ديداري (V-SLAM) شدهاست. الگوريتمهاي سنتي مكانيابي و نقشهبرداري همزمان در سالهاي اخير بهبلوغ نسبي در محيطهاي ايستا رسيدهاند؛ اما فرض ايستا بودن محيط در كاربردهاي عملي و صنعتي در اكثر اوقات برقرار نيست، بههمين دليل اين الگوريتمها تحت تاثير عوامل پويا در محيط خواهند بود. هندسهي تصويري، روشهاي پردازش تصوير و اخيرا الگوريتمهاي هوش مصنوعي از جمله مهمترين ابزاري هستند كه محققان براي مقابله با آثار عوامل پويا از آنها استفاده ميكنند. ازينرو در اين پاياننامه با تمركز بر روشهاي معنايي، سه روش پيشپردازشي براي شناسايي نقاط ويژگي اشياء پويا معرفي ميشود. با افزودن اين روشها به الگوريتمهاي كلاسيك مكانيابي و نقشهبرداري همزمان ديداري، سه نوآوري جديد در اين زمينه معرفي شدهاست. در اين مستند سير تكامل مكانيابي و نقشهبرداري همزمان ديداري و الگوريتمهاي معروف اين زمينه بررسي خواهند شد. سپس مهمترين روشهاي پردازش اشياء پويا بررسي ميشوند. در اولين روش پيشنهادي اين پاياننامه، الگوريتم معنايي YOLOv11-SLAM معرفي ميشود كه با استفاده از مدل جديد YOLOv11l-seg اقدام به شناسايي و حذف اشياء پويا ميكند. روش پيشنهادي دوم، Dep-SLAM، علاوه بر شبكهي معنايي از اطلاعات عمق و مدلسازي گوسي براي بهبود دقت در جداسازي نقاط پويا و ايستا استفاده ميكند. در نهايت، الگوريتم سوم، DEY-SLAM، با تركيب شبكه معنايي، اطلاعات عمق و آزمون هندسي اپيپلار، نقاط پوياي مشكوك را از فرآيند محاسبات مكانيابي و نقشهبرداري همزمان حذف ميكند. ارزيابيهاي انجامشده بر روي دنبالههاي پويا از مجموعهداده TUM RGB-D، نشانميدهد كه DEY-SLAM نتايج قابل قبولي را در بين الگوريتمهاي همرده خود كسب كردهاست بهطوري كه در صحنههاي پيچيده اين مجموعهداده مانند f/w/half، f/w/xyz و f/w/rpy مقدار معيار RMSE خطاي مطلق بهدست آمده توسط الگوريتم كلاسيك ORB-SLAM3 را از مقادير 4494/0، 4374/0 و 2559/0 متر بهترتيب به مقادير 0229/0، 0269/0 و 0334/0 متر كاهش داده و دقت نقشه را تا حدود 90% در اين دنبالهها بهبود دهد.
چكيده انگليسي :
Simultaneous Localization and Mapping (SLAM) refers to the process in which a mobile sensor simultaneously estimates its position within an unknown environment and constructs a map of that environment, without prior access to either the map or the initial location. In general, depending on the application and environment, various sensors such as laser scanners, inertial units, vision sensors, or their combinations can be employed. Due to advantages such as low cost, rich information, and scalability, vision sensors have become increasingly popular in recent years, leading to the widespread adoption of Visual SLAM (V-SLAM). Traditional SLAM algorithms have achieved relative maturity in static environments; however, the static-world assumption is rarely valid in practical and industrial scenarios. Consequently, their performance is adversely affected by dynamic elements in the scene. To address this challenge, researchers have leveraged tools such as geometric modeling, image processing, and more recently, artificial intelligence. In this thesis, we focus on semantic-based methods and propose three preprocessing strategies for detecting dynamic feature points. By integrating these strategies into classical V-SLAM frameworks, three novel approaches are introduced. The study begins with a review of the evolution of V-SLAM and well-known algorithms in this domain, followed by an examination of key techniques for handling dynamic objects. The first proposed method, YOLOv11-SLAM, employs the newly developed YOLOv11-seg model for semantic segmentation to detect and eliminate dynamic objects. The second method, Dep-SLAM, combines semantic segmentation with depth information and Gaussian modeling to enhance the separation of dynamic and static features. Finally, the third method, DEY-SLAM, integrates semantic segmentation, depth data, and epipolar geometry tests to identify and discard ambiguous dynamic features from the localization and mapping process. Experimental evaluations conducted on dynamic sequences from the TUM RGB-D dataset demonstrate that DEY-SLAM achieves competitive performance among state-of-the-art algorithms. In complex scenes of this dataset such as f/w/half, f/w/xyz, and f/w/rpy the RMSE of absolute trajectory error obtained by the classical orB-SLAM3 is reduced from 0.4494, 0.4374, and 0.2559 to 0.0229, 0.0269, and 0.0334, resulting in an improvement of up to 90% in mapping accuracy.