پديد آورنده :
غفوري زاده، جواد
عنوان :
بهبود ناوبري ربات سيار در محيط هاي پويا مبتني بر يادگيري تقويتي
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيك
محل تحصيل :
اصفهان: دانشگاه صنعتي اصفهان، دانشكده برق و كامپيوتر
صفحه شمار :
سيزده،141 ص.: مصور، جدول، نمودار
يادداشت :
ص. ع. به فارسي و انگليسي
استاد راهنما :
مازيار پالهنگ
توصيفگر ها :
اجتناب از مانع
استاد داور :
محمد دانش، يدالله ذاكري
تاريخ ورود اطلاعات :
1395/11/04
رشته تحصيلي :
برق و كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
چكيده فارسي :
چكيده در سالهاي اخير بدليل پيچيدگي محاسباتي و زمانبر بودن روشهاي كلاسيك يك تمايل ميان محققان استفاده از راهكارهاي هوش مصنوعي است كه در اين ميان الگوريـتمهاي يادگيري تقويـتي به علت كارايي چشمگير آنها بخصوص در محيطهاي ناشناخته از محبوبيت خاصي برخوردار هستند در اين تحقيق رهيافتي جديد مبتني بر يادگيري تقويتي جهت ناوبري يك عامل هوشمند در محيطهاي پويا پيشنهاد ميشود گامهاي اصلي در استفاده از الگوريتم يادگيري تقويتي طراحي حالات و تابع پاداش مناسب است كه در محيطهاي پويا مبحث تعيين حالات و توابع پاداش از حساسيت خاصي برخوردار است يك چالش مطرح در محيطهاي پويا پيچيده و دشوار بودن بيان يك تابع نگاشت مناسب از وضعيت محيط به ويژگيهايي به عنوان معرف حالات مورد استفاده در الگوريتم يادگيري تقويتي است چالش بزرگ ديگر در يادگيري در محيط پويا نوسانات تابع پاداش دريافتي ناشي از پويايي محيط است ازآنجاييكه كيفيت نتايج در يادگيري تقويتي وابسته به تابع پاداش محيط است در محيطهاي پويا تغييرات تصادفي در تابع پاداش موجب تغيير در نتايج ميشود در يادگيري تقويتي دادههاي آموزشي توسط محيط براي عامل فراهم ميگردند و به دليل ماهيت تصادفي دادهها ناشي از پويايي محيط عامل يادگيرنده با مشكل عدم همگرايي و يا همگرايي نامناسب الگوريتم روبروست و هيچگونه تضميني براي همگرايي مناسب الگوريتم مطرح نيست در اين تحقيق علاوه بر تحليل همگرايي راهكار پيشنهادي و نحوهي شكلگيري سياستي مطلوب يك تابع مكاشفه بهمنظور سرعتدهي الگوريتم يادگيري تقويتي و هدايت مناسب عامل ارائه ميگردد محبوبيت الگوريتمهاي يادگيري تقويتي كارايي بالا و حيرتبرانگيز آنها در محيطهاي ناشناخته است با توجه به عدم شناخت پيشين از نحوهي عملكرد عامل و همچنين شرايط محيط هدايت عامل بهطور غيرمستقيم است و تعريف تابع مكاشفه تنها بر اساس اطلاعات جمعآوريشده توسط عامل صورت ميپذيرد اما چنين تعريفي موجب ميگردد تابع مكاشفهي ارائهشده وابسته به دادههاي آموزشي گردد و درنتيجه تحت تأثير نوع محيط و شرايط پويايي حاكم بر آن قرار گيرد با توجه به اينكه تابع مكاشفه بر اساس اطلاعات محيطي از جمله پاداشهاي دريافتي است بهمنظور فائق آمدن بر اين مشكل و تحصيل يك هدايت مناسب در همهي زمانها با تعيين چارچوبي مناسب در تخصيص ميزان وزنهاي تابع پاداش چندهدفه به مقابله با تأثير سو ناشي از پويايي محيط پرداخته ميشود و بدين سبب از هرگونه شكست عمليات ناوبري و برخورد با موانع اجتناب ميگردد همچنين شايان ذكر است كه راهكار پيشنهادي به ازاي دسته وسيعي از عاملها با قابليت مانور متفاوت قابل استفاده است در پايان نتايج شبيهسازي نشان ميدهند كه اين پژوهش نسبت به كارهاي پيشين حتي به ازاي محيطها با چگالي موانع بالا نرخ رسيدن به هدف بالاتري دارد و درنتيجه ازنظر كارايي نسبت به ساير الگوريتمهاي موجود برتري دارد با توجه به نتايج شبيهسازي روش پيشنهادي با آموزش بيشتر عامل نرخ رسيدن به هدف بهطور پيوسته بالاتر ميرود و يا ثابت ميماند و با هيچگونه كاهش ناگهاني كارايي مواجه نيست فلذا همانگونه كه در تشريح روش پيشنهادي پيشبيني ميشود پويايي محيط اثر سوئي در روند تحصيل سياست در طول مدت زمان آموزش ندارد الگوريـتم پيشنهادي صرفنظر از
چكيده انگليسي :
35 Narayanan L B a S Learning all optimal policies with multiple criteria inEditor Ed Eds Book Learning all optimal policies with multiple criteria 2008 edn pp 41 4736 Tim Brys A H Peter Vrancx Matthew E Taylor Daniel Kudenko and AnnNowe Multi Objectivization in Reinforcement Learning in Editor Ed Eds BookMulti Objectivization in Reinforcement Learning Artifcial Intelligence Lab VrijeUniversiteit Brussel Intelligent Robot Learning Lab Washington State University Reinforcement Learning Group York University 2013 edn pp 37 Shie Mannor I M Amit Hoze and Uri Klein Dynamic Abstraction inReinforcement Learning via Clustering in Editor Ed Eds Book DynamicAbstraction in Reinforcement Learning via Clustering 2004 edn pp 7138 Dietterich T G Hierarchical Reinforcement Learning with the MAXQ ValueFunction Decomposition Journal of Artificial Intelligence Research 2000 13 pp 227 30339 Delvin S Potential Based Reward Shaping for Knowledge Based Multi AgentReinforcement Learning The University of York 201340 Khairul Anam P Handy Wicaksono Rusdhianto Effendi S Indra Adji SonKuswadi Achmad Jazidie Mitsuji Sampei Hybridization of fuzzy Q learning andbehavior based control for autonomous mobile robot navigation in clutteredenvironment Proc ICROS SICE International Joint Conference Fukuoka InternationalCongress Center Japan August 18 21 2009 pp Pages41 Vali Derhami V J M a M N A Fuzzy Sarsa Learning and the proof of existenceof its stationary points Asian Journal of Control 2008 10 5 pp 535 54942 Oprea M M Rule Based Adaptive Navigation for an Intelligent EducationalMobile Robot Proc 3rd IFIP Conference on Artificial Intelligence Applications andInnovations AIAI Athens Greece June 7 9 2006 pp Pages43 Laud A D Theory and application of reward shaping in reinforcement learning University of Illinois at Urbana Champaign 2004
استاد راهنما :
مازيار پالهنگ
استاد داور :
محمد دانش، يدالله ذاكري