تابان، عليرضا

عنوان

استفاده از دانش منطقي پس‌زمينه در بهبود تشخيص رويدادهاي جاده‌اي

مقطع تحصيلي

كارشناسي ارشد

گرايش تحصيلي

هوش مصنوعي

محل تحصيل

اصفهان : دانشگاه صنعتي اصفهان

سال دفاع

1404

صفحه شمار

155ص

توصيفگر ها

يادگيري ماشين , هوش مصنوعي عصبي-نمادين , يادگيري عميق , طبقه‌بندي چندبرچسبي , تشخيص اشياء

تاريخ ورود اطلاعات

1404/12/27

كتابنامه

رشته تحصيلي

مهندسي كامپيوتر

دانشكده

مهندسي برق و كامپيوتر

تاريخ ويرايش اطلاعات

1405/01/16

كد ايرانداك

23212822

چكيده فارسي

سيستم‌هاي رانندگي خودكار به‌عنوان يكي از پيچيده‌ترين كاربردهاي هوش مصنوعي، نيازمند تركيب قابليت‌هاي درك محيطي قدرتمند و استدلال منطقي دقيق هستند. شبكه‌هاي عصبي عميق اگرچه در تشخيص الگوها و پردازش داده‌هاي بصري توانايي چشمگيري نشان داده‌اند، اما محدوديت‌هاي اساسي در زمينه استدلال منطقي و رعايت قيود ايمني دارند. اين پژوهش به توسعه روش‌هاي نوين براي ادغام دانش نمادين و الزامات منطقي در فرآيند يادگيري عميق مي‌پردازد تا با بهبود عملكرد مدل‌ها، سيستم‌هايي قابل‌اعتماد و ايمن‌تر براي رانندگي خودكار ارائه دهد. مجموعه داده ROAD-R به‌عنوان اولين مجموعه داده جامع براي تشخيص رويدادهاي جاده‌اي با الزامات منطقي صريح، زمينه مناسبي براي بررسي اين چالش فراهم مي‌كند. اين مجموعه داده شامل 243 قيد منطقي است كه روابط بين عوامل، اعمال و مكان‌ها را مدل‌سازي مي‌كند.شبكه‌هاي عصبي عميق ذاتاً داده‌گرا هستند و عملكرد مطلوب آن‌ها مستلزم دسترسي به حجم قابل‌توجهي از داده‌هاي برچسب‌گذاري شده است. در عمل، فراهم‌سازي و حاشيه‌نويسي دقيق چنين داده‌هايي، به‌ويژه در حوزه رانندگي خودكار، فرآيندي وقت‌گير و پرهزينه است كه چالش‌هاي عملي جدي را به همراه دارد. در اين پژوهش، سه روش نوآورانه براي حل اين مسئله ارائه مي‌شود. روش نخست بر اساس يادگيري گرافي روابط بين برچسب‌ها استوار است كه با استفاده از شبكه‌هاي كانولوشني گرافي، وابستگي‌هاي منطقي بين كلاس‌هاي مختلف را مدل‌سازي مي‌كند. اين روش با استفاده از مدل YOLOv8 براي تشخيص اشياء و ساختار گرافي براي يادگيري روابط، چارچوبي براي درك محتواي بصري و به‌كار گيري قيود منطقي فراهم مي‌آورد. روش دوم از مدل‌هاي انتشار مبتني بر امتياز با هدايت عصبي-نمادين بهره مي‌گيرد. اين روش با استفاده از مدل‌هاي ضمني حذف نويز و انتشار و قابليت توليد توزيع‌هاي چندوجهي برچسب‌ها را دارد كه هم‌زمان با شواهد بصري سازگار بوده و قيود منطقي را به شيوه احتمالي به كار مي‌گيرد. روش سوم بر مبناي يادزدايي انتخابي است كه راه‌حلي كارآمد براي ريزتنظيم موثرتر مدل‌هاي پيش‌آموزش‌ديده ارائه مي‌دهد. اين روش با شناسايي و حذف انتخابي الگوهايي كه منجر به نقض قيود منطقي مي‌شوند، امكان بهبود مدل‌ها را بدون نياز به آموزش مجدد كامل فراهم مي‌كند. نتايج آزمايش‌هاي گسترده بر روي مجموعه داده ROAD-R نشان مي‌دهد كه هر سه روش پيشنهادي توانسته‌اند در مقايسه با مدل‌هاي پايه عملكرد بسيار خوبي داشته باشند و روش سوم با مقداري نزديك به يك امتياز F1 با نسبت تقاطع بر اتحاد 0/5 بالاترين عملكرد را داشته باشد. اين پژوهش نشان مي‌دهد كه ادغام دانش نمادين در فرآيند يادگيري عميق در زمان كمبود داده برچسب‌دار مي‌تواند عملكرد كلي سيستم را نيز بهبود بخشد.

چكيده انگليسي

Autonomous driving systems, as one of the most complex applications of artificial intelligence, require a combination of powerful environmental perception capabilities an‎d precise logical reasoning. While deep neural networks have demonstrated remarkable ability in pattern recognition an‎d visual data processing, they have fundamental limitations in logical reasoning an‎d safety constraint compliance. This research focuses on developing novel methods for integrating symbolic knowledge an‎d logical requirements into the deep learning process to improve model performance an‎d provide more reliable an‎d safer autonomous driving systems. The ROAD-R dataset, as the first comprehensive dataset for road event detection with explicit logical requirements, provides an appropriate foundation for investigating this challenge. This dataset includes 243 logical constraints that model relationships between agents, actions, an‎d locations. Deep neural networks are inherently data-driven, an‎d their optimal performance requires access to a significant volume of labeled data. In practice, providing an‎d accurately annotating such data, especially in the autonomous driving domain, is a time-consuming an‎d expensive process that presents serious practical challenges. In this research, three innovative methods are proposed to address this problem. The first method is based on graph learning of label relationships, which models logical dependencies between different classes using graph convolutional networks. This method provides a framework for understan‎ding visual content an‎d logical constraints by utilizing the YOLOv8 model for object detection an‎d a graph structure for learning relationships. The second method employs score-based diffusion models with neuro-symbolic guidance. This method uses implicit denoising diffusion models an‎d has the capability to generate multimodal label distributions that are simultaneously consistent with visual evidence while respecting logical constraints. The third method is based on selec‎tive unlearning, which offers an efficient solution for more effective fine-tuning of pre-trained models. This method enables model improvement without requiring complete retraining by identifying an‎d selec‎tively removing patterns that lead to logical constraint violations. The results of extensive experiments on the ROAD-R dataset demonstrate that all three proposed methods have performed very well compared to baseline models, an‎d the third method achieved the highest performance, outperforming the best baseline by approximately one point in F1‑Score at intersection over unio‎n of 0.5. This research shows that integrating symbolic knowledge into the deep learning process can improve overall system performance even in scenarios with limited labeled data.

استاد راهنما

مهران صفاياني , عبدالرضا ميرزايي

استاد داور

محمدعلي خسروي فرد , محمدرضا احمدزاده , عليرضا بصيري

لينک به اين مدرک

https://library.iut.ac.ir/dl/search/default.aspx?Term=20961&Field=0&DTC=107