شماره مدرك
20961
شماره راهنما
18002
پديد آورنده
تابان، عليرضا
عنوان
استفاده از دانش منطقي پسزمينه در بهبود تشخيص رويدادهاي جادهاي
مقطع تحصيلي
كارشناسي ارشد
گرايش تحصيلي
هوش مصنوعي
محل تحصيل
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع
1404
صفحه شمار
155ص
توصيفگر ها
يادگيري ماشين , هوش مصنوعي عصبي-نمادين , يادگيري عميق , طبقهبندي چندبرچسبي , تشخيص اشياء
تاريخ ورود اطلاعات
1404/12/27
كتابنامه
كتابنامه
رشته تحصيلي
مهندسي كامپيوتر
دانشكده
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات
1405/01/16
كد ايرانداك
23212822
چكيده فارسي
سيستمهاي رانندگي خودكار بهعنوان يكي از پيچيدهترين كاربردهاي هوش مصنوعي، نيازمند تركيب قابليتهاي درك محيطي قدرتمند و استدلال منطقي دقيق هستند. شبكههاي عصبي عميق اگرچه در تشخيص الگوها و پردازش دادههاي بصري توانايي چشمگيري نشان دادهاند، اما محدوديتهاي اساسي در زمينه استدلال منطقي و رعايت قيود ايمني دارند. اين پژوهش به توسعه روشهاي نوين براي ادغام دانش نمادين و الزامات منطقي در فرآيند يادگيري عميق ميپردازد تا با بهبود عملكرد مدلها، سيستمهايي قابلاعتماد و ايمنتر براي رانندگي خودكار ارائه دهد.
مجموعه داده ROAD-R بهعنوان اولين مجموعه داده جامع براي تشخيص رويدادهاي جادهاي با الزامات منطقي صريح، زمينه مناسبي براي بررسي اين چالش فراهم ميكند. اين مجموعه داده شامل 243 قيد منطقي است كه روابط بين عوامل، اعمال و مكانها را مدلسازي ميكند.شبكههاي عصبي عميق ذاتاً دادهگرا هستند و عملكرد مطلوب آنها مستلزم دسترسي به حجم قابلتوجهي از دادههاي برچسبگذاري شده است. در عمل، فراهمسازي و حاشيهنويسي دقيق چنين دادههايي، بهويژه در حوزه رانندگي خودكار، فرآيندي وقتگير و پرهزينه است كه چالشهاي عملي جدي را به همراه دارد.
در اين پژوهش، سه روش نوآورانه براي حل اين مسئله ارائه ميشود. روش نخست بر اساس يادگيري گرافي روابط بين برچسبها استوار است كه با استفاده از شبكههاي كانولوشني گرافي، وابستگيهاي منطقي بين كلاسهاي مختلف را مدلسازي ميكند. اين روش با استفاده از مدل YOLOv8 براي تشخيص اشياء و ساختار گرافي براي يادگيري روابط، چارچوبي براي درك محتواي بصري و بهكار گيري قيود منطقي فراهم ميآورد.
روش دوم از مدلهاي انتشار مبتني بر امتياز با هدايت عصبي-نمادين بهره ميگيرد. اين روش با استفاده از مدلهاي ضمني حذف نويز و انتشار و قابليت توليد توزيعهاي چندوجهي برچسبها را دارد كه همزمان با شواهد بصري سازگار بوده و قيود منطقي را به شيوه احتمالي به كار ميگيرد. روش سوم بر مبناي يادزدايي انتخابي است كه راهحلي كارآمد براي ريزتنظيم موثرتر مدلهاي پيشآموزشديده ارائه ميدهد. اين روش با شناسايي و حذف انتخابي الگوهايي كه منجر به نقض قيود منطقي ميشوند، امكان بهبود مدلها را بدون نياز به آموزش مجدد كامل فراهم ميكند.
نتايج آزمايشهاي گسترده بر روي مجموعه داده ROAD-R نشان ميدهد كه هر سه روش پيشنهادي توانستهاند در مقايسه با مدلهاي پايه عملكرد بسيار خوبي داشته باشند و روش سوم با مقداري نزديك به يك امتياز F1 با نسبت تقاطع بر اتحاد 0/5 بالاترين عملكرد را داشته باشد.
اين پژوهش نشان ميدهد كه ادغام دانش نمادين در فرآيند يادگيري عميق در زمان كمبود داده برچسبدار ميتواند عملكرد كلي سيستم را نيز بهبود بخشد.
چكيده انگليسي
Autonomous driving systems, as one of the most complex applications of artificial intelligence, require a combination of powerful environmental perception capabilities and precise logical reasoning. While deep neural networks have demonstrated remarkable ability in pattern recognition and visual data processing, they have fundamental limitations in logical reasoning and safety constraint compliance. This research focuses on developing novel methods for integrating symbolic knowledge and logical requirements into the deep learning process to improve model performance and provide more reliable and safer autonomous driving systems.
The ROAD-R dataset, as the first comprehensive dataset for road event detection with explicit logical requirements, provides an appropriate foundation for investigating this challenge. This dataset includes 243 logical constraints that model relationships between agents, actions, and locations. Deep neural networks are inherently data-driven, and their optimal performance requires access to a significant volume of labeled data. In practice, providing and accurately annotating such data, especially in the autonomous driving domain, is a time-consuming and expensive process that presents serious practical challenges. In this research, three innovative methods are proposed to address this problem. The first method is based on graph learning of label relationships, which models logical dependencies between different classes using graph convolutional networks. This method provides a framework for understanding visual content and logical constraints by utilizing the YOLOv8 model for object detection and a graph structure for learning relationships.
The second method employs score-based diffusion models with neuro-symbolic guidance. This method uses implicit denoising diffusion models and has the capability to generate multimodal label distributions that are simultaneously consistent with visual evidence while respecting logical constraints. The third method is based on selective unlearning, which offers an efficient solution for more effective fine-tuning of pre-trained models. This method enables model improvement without requiring complete retraining by identifying and selectively removing patterns that lead to logical constraint violations. The results of extensive experiments on the ROAD-R dataset demonstrate that all three proposed methods have performed very well compared to baseline models, and the third method achieved the highest performance, outperforming the best baseline by approximately one point in F1‑Score at intersection over union of 0.5. This research shows that integrating symbolic knowledge into the deep learning process can improve overall system performance even in scenarios with limited labeled data.
استاد راهنما
مهران صفاياني , عبدالرضا ميرزايي
استاد داور
محمدعلي خسروي فرد , محمدرضا احمدزاده , عليرضا بصيري