شماره مدرك :
16977
شماره راهنما :
1847 دكتري
پديد آورنده :
حسيني ايزدي، نويد
عنوان :

بهره‌گيري از ساختار سلسله‌ مراتبي و مدل ديناميك جهت پياده‌ سازي كاوش سياست در يادگيري تقويتي با كاربرد در رباتيك

مقطع تحصيلي :
دكتري
گرايش تحصيلي :
هوش مصنوعي و رباتيك
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
نه، 147، 9ص، : مصور، جدول، نمودار
استاد راهنما :
مازيار پالهنگ
استاد مشاور :
مهران صفاياني
توصيفگر ها :
يادگيري تقويتي , كاوش سياست سلسله مراتبي , مدل-مبنا , رباتيك
استاد داور :
محمدرضا احمدزاده، عبدالرضا ميرزائي
تاريخ ورود اطلاعات :
1400/10/19
كتابنامه :
كتابنامه
رشته تحصيلي :
برق و كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1400/10/20
كد ايرانداك :
2795526
چكيده فارسي :
در علم رباتيك عملكرد مناسب ربات‌ها به طراحي و پياده‌سازي سيستم كنترلي كارآمد وابسته است. با توجه به اطلاعات درك شده، سيستم كنترلي ربات فرمان‌هاي مناسب جهت تحقق هدفي مشخص توليد مي‌كند. در مسائل دنياي واقعي، فضاي حالت و عمل پيوسته و بُعد بالا هستند. الگوريتم‌هاي يادگيري تقويتي امكان يادگيري سيستم كنترلي مسائل پيچيده را نويد مي‌دهند. اين الگوريتم‌ها به داده‌هاي آموزشي زياد نياز دارند كه جمع‌آوري آنها در مسائل واقعي هزينه‌بر و دشوار است. دو رويكرد كاهش داده‌هاي آموزشي عبارتند از: 1-الگوريتم‌‌هاي يادگيري تقويتي سلسله‌مراتبي و 2-استفاده از مدل ديناميك براي توليد داده‌هاي مصنوعي. الگوريتم‌هاي سلسله‌مراتبي به دو دستهٔ تجزيهٔ فضايي و تجريد زماني قابل تقسيم هستند. در رويكرد تجزيهٔ فضايي، با توجه به ساخت‌يافتگي مسائل، وظيفهٔ هدف به تعدادي زير-وظيفه تجزيه مي‌شود. تعدادي زير-سياست جهت انجام زير-وظيفه‌ها ياد گرفته مي‌شود و تركيب آنها براي تحقق وظيفهٔ هدف به كار مي‌رود. در رويكرد تجريد زماني جهت تسريع يادگيري، خط سيرهاي طولاني به چند خط سير كوتاه‌تر با مقياس‌هاي زماني مختلف تجزيه مي‌گردد. مزيت تجزيهٔ فضايي آن است كه، رفتار عامل براي كاربر انساني، قابل درك‌تر و واضح‌تر است زيرا رفتار دنباله‌اي از چند زير-سياست با كاركرد مشخص مي‌باشد. چون زير-سياست‌ها به صورت صريح و مجزا از هم در نظر گرفته مي‌شوند، امكان استفاده از دانش زمينه براي مقداردهي اوليه به پارامترهاي آنها وجود دارد. مزيت رويكرد تجريد زماني افزايش سرعت يادگيري به علت انجام اكتشاف در مقياس‌هاي مختلف زماني است. عيب رويكرد مذكور شفاف نبودن مكانيزم كاركرد عامل به علت استفاده از شبكهٔ عصبي در هر لايه از سلسله‌مراتب تجريد زماني است. به دليل واضح بودن مكانيزم كاركرد رويكرد تجزيه فضايي و امكان استفاده از دانش زمينه، در اين رساله تمركز بر روي اين رويكرد مي‌باشد و روش سلسله‌مراتبي LaREPS ارائه مي‌گردد. روش مذكور كاستي‌هاي روش‌هاي موجود مانند متمركز شدن روي يكي از زير-سياست‌ها و سلسله‌مراتبي نبودن مكانيزم يادگيري سياست سلسله‌مراتبي را رفع مي‌كند. ساختار سلسله‌مراتبي روش LaREPS دو لايه است. در لايهٔ پايين تعدادي زير-سياست قرار دارد كه به تعامل با محيط مي‌پردازند. وظيفهٔ سياست لايهٔ بالا انتخاب زير-سياست مناسب است. در روش مذكور يادگيري بر پايهٔ الگوريتم REPSو خوشه بندي داده‌هاي جمع‌آوري شده انجام مي‌شود. الگوريتم REPS براي جلوگيري از همگرايي زودرس سياست و حفظ ايمني ربات مفيد است. خوشه‌بندي با اختصاص هر خوشه به يكي از زير-سياست‌ها، تنوع زير-سياست‌‌ها را فراهم مي‌كند. روش ارائه شده با ساير روش‌‌‌هاي سلسله‌مراتبي HiREPS، HIRO، HAC، HiPPO و IOCروي مسائل توابع چند مُدي، دنياي گودال و Pick-and-move مقايسه گرديده كه در اكثر آنها روش مذكور كاركرد بهتري داشته است. آزمايشي نيز روي ربات كوكا ايوا انجام گرديد كه در آن روش LaREPS در شبيه‌ساز IIWA-STACK آموزش داده شد و سپس روي ربات واقعي تست گرديد. در شبيه‌ساز مذكور هدف، يادگيري انتقال پنجهٔ ربات به دو نقطهٔ دلخواه در فضاي عملياتي ربات بود. در رهيافت دوم كاهش تعامل عامل با محيط، روشي نوين براي يادگيري مدل ديناميك محيط با افق شبيه‌سازي متغير ارائه مي‌گردد. از مدل ديناميك براي توليد داده‌هاي مصنوعي بدون تعامل با محيط استفاده مي‌شود. شبيه‌سازي گام‌هاي متوالي به كمك مدل باعث خطاي انباشته‌اي در نمونه‌هاي مصنوعي مي‌شود. براي رفع اين مشكل علاوه بر شبكه‌هاي پيش‌بيني كنندهٔ حالت بعدي و تابع پاداش، شبكهٔ دسته‌بندي نيز در نظر گرفته مي‌شود. شبكهٔ مذكور در صورتي كه داده‌هاي مصنوعي از توزيع داده‌هاي واقعي فاصلهٔ زيادي داشته باشند، افق شبيه‌سازي را متوقف مي‌كند تا از توليد داده‌هاي بي‌كيفيت جلوگيري شود. روش ارائه شده با ساير روش‌هاي مدل-مبنا مانند MVE و STEVE و همچنين روش بدون مدل DDPG روي مسئلهٔ HalfCheetah مقايسه مي‌گردد. نتايج نشان مي‌دهد كه روش ارائه شده از دو روش DDPG و MVE بهتر عمل مي‌كند اما مغلوب روش STEVE مي‌شود. البته پيچيدگي محاسباتي روش ارائه شده به مراتب كمتر از روش STEVE است و براي مسائلي كه حجم محاسبات مهم است، استفاده از روش ارائه شده مي‌تواند گزينهٔ مناسبي باشد.
چكيده انگليسي :
Efficient performance of robots depends on capable control systems design. Based on its perception, robot controller chooses commands to achieve a specific goal. State and action spaces of real-world problems are continuous and high dimensional. Reinforcement learning can handle complex problems but require many training samples collected via interaction with environment which is costly. For interaction reduction, hierarchical reinforcement learning and artificial samples generation using environment dynamics model can be used. First type of hierarchical methods is spatial decomposition which breaks the target task into simpler sub-tasks for each of which a sub-policy is learned. The agent’s behavior is a sequence of these sub-policies with specific goals so it is easily understandable and sub-policies can be initialized by domain knowledge. Second type of hierarchical methods is temporal abstraction which decomposes rollout to shorter ones with different time scales to accelerate learning but its working mechanism is not clear due to using a neural network at each layer of hierarchy. Due to clear working mechanism and the ability to use domain knowledge, a spatial decomposition approach named LaREPS is proposed which addresses previous hierarchical methods drawbacks such as focusing on just one sub-policy and non-hierarchical learning. In LaREPS, the top level policy chooses one of the sub-policies from the bottom level. The chosen sub-policy selects action for execution in the environment. The two levels of policy are learned using REPS method and clustering of collected data. Assigning each cluster to one of the sub-policies keeps them diverse. Comparison is made with hierarchical methods such as HiREPS, HIRO, HAC, HiPPO, and IOC on multimodal functions, puddle world, and pick-and-move problems. An experiment using KUKA iiwa robot is presented in which training is done in IIWA-STACK simulator and eva‎luation on the real robot. In the second part of this thesis, a novel dynamics model with adaptive simulation horizon for artificial samples generation is proposed. Using the model for simulation leads to accumulated error. To address this issue, a classifier network ends the simulation whenever the artificial samples distance to real samples distribution is larger than certain threshold. The proposed approach outperforms MVE and DDPG methods on HalfCheetah environment but is outperformed by STEVE. However, in problems that low computational complexity is important; the proposed approach can be a reasonable solution.
استاد راهنما :
مازيار پالهنگ
استاد مشاور :
مهران صفاياني
استاد داور :
محمدرضا احمدزاده، عبدالرضا ميرزائي
لينک به اين مدرک :

بازگشت