شماره راهنما :
1847 دكتري
پديد آورنده :
حسيني ايزدي، نويد
عنوان :
بهرهگيري از ساختار سلسله مراتبي و مدل ديناميك جهت پياده سازي كاوش سياست در يادگيري تقويتي با كاربرد در رباتيك
گرايش تحصيلي :
هوش مصنوعي و رباتيك
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
نه، 147، 9ص، : مصور، جدول، نمودار
استاد راهنما :
مازيار پالهنگ
استاد مشاور :
مهران صفاياني
توصيفگر ها :
يادگيري تقويتي , كاوش سياست سلسله مراتبي , مدل-مبنا , رباتيك
استاد داور :
محمدرضا احمدزاده، عبدالرضا ميرزائي
تاريخ ورود اطلاعات :
1400/10/19
رشته تحصيلي :
برق و كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1400/10/20
چكيده فارسي :
در علم رباتيك عملكرد مناسب رباتها به طراحي و پيادهسازي سيستم كنترلي كارآمد وابسته است. با توجه به اطلاعات درك شده، سيستم كنترلي ربات فرمانهاي مناسب جهت تحقق هدفي مشخص توليد ميكند. در مسائل دنياي واقعي، فضاي حالت و عمل پيوسته و بُعد بالا هستند. الگوريتمهاي يادگيري تقويتي امكان يادگيري سيستم كنترلي مسائل پيچيده را نويد ميدهند. اين الگوريتمها به دادههاي آموزشي زياد نياز دارند كه جمعآوري آنها در مسائل واقعي هزينهبر و دشوار است. دو رويكرد كاهش دادههاي آموزشي عبارتند از: 1-الگوريتمهاي يادگيري تقويتي سلسلهمراتبي و 2-استفاده از مدل ديناميك براي توليد دادههاي مصنوعي. الگوريتمهاي سلسلهمراتبي به دو دستهٔ تجزيهٔ فضايي و تجريد زماني قابل تقسيم هستند. در رويكرد تجزيهٔ فضايي، با توجه به ساختيافتگي مسائل، وظيفهٔ هدف به تعدادي زير-وظيفه تجزيه ميشود. تعدادي زير-سياست جهت انجام زير-وظيفهها ياد گرفته ميشود و تركيب آنها براي تحقق وظيفهٔ هدف به كار ميرود. در رويكرد تجريد زماني جهت تسريع يادگيري، خط سيرهاي طولاني به چند خط سير كوتاهتر با مقياسهاي زماني مختلف تجزيه ميگردد. مزيت تجزيهٔ فضايي آن است كه، رفتار عامل براي كاربر انساني، قابل دركتر و واضحتر است زيرا رفتار دنبالهاي از چند زير-سياست با كاركرد مشخص ميباشد. چون زير-سياستها به صورت صريح و مجزا از هم در نظر گرفته ميشوند، امكان استفاده از دانش زمينه براي مقداردهي اوليه به پارامترهاي آنها وجود دارد. مزيت رويكرد تجريد زماني افزايش سرعت يادگيري به علت انجام اكتشاف در مقياسهاي مختلف زماني است. عيب رويكرد مذكور شفاف نبودن مكانيزم كاركرد عامل به علت استفاده از شبكهٔ عصبي در هر لايه از سلسلهمراتب تجريد زماني است. به دليل واضح بودن مكانيزم كاركرد رويكرد تجزيه فضايي و امكان استفاده از دانش زمينه، در اين رساله تمركز بر روي اين رويكرد ميباشد و روش سلسلهمراتبي LaREPS ارائه ميگردد. روش مذكور كاستيهاي روشهاي موجود مانند متمركز شدن روي يكي از زير-سياستها و سلسلهمراتبي نبودن مكانيزم يادگيري سياست سلسلهمراتبي را رفع ميكند. ساختار سلسلهمراتبي روش LaREPS دو لايه است. در لايهٔ پايين تعدادي زير-سياست قرار دارد كه به تعامل با محيط ميپردازند. وظيفهٔ سياست لايهٔ بالا انتخاب زير-سياست مناسب است. در روش مذكور يادگيري بر پايهٔ الگوريتم REPSو خوشه بندي دادههاي جمعآوري شده انجام ميشود. الگوريتم REPS براي جلوگيري از همگرايي زودرس سياست و حفظ ايمني ربات مفيد است. خوشهبندي با اختصاص هر خوشه به يكي از زير-سياستها، تنوع زير-سياستها را فراهم ميكند. روش ارائه شده با ساير روشهاي سلسلهمراتبي HiREPS، HIRO، HAC، HiPPO و IOCروي مسائل توابع چند مُدي، دنياي گودال و Pick-and-move مقايسه گرديده كه در اكثر آنها روش مذكور كاركرد بهتري داشته است. آزمايشي نيز روي ربات كوكا ايوا انجام گرديد كه در آن روش LaREPS در شبيهساز IIWA-STACK آموزش داده شد و سپس روي ربات واقعي تست گرديد. در شبيهساز مذكور هدف، يادگيري انتقال پنجهٔ ربات به دو نقطهٔ دلخواه در فضاي عملياتي ربات بود. در رهيافت دوم كاهش تعامل عامل با محيط، روشي نوين براي يادگيري مدل ديناميك محيط با افق شبيهسازي متغير ارائه ميگردد. از مدل ديناميك براي توليد دادههاي مصنوعي بدون تعامل با محيط استفاده ميشود. شبيهسازي گامهاي متوالي به كمك مدل باعث خطاي انباشتهاي در نمونههاي مصنوعي ميشود. براي رفع اين مشكل علاوه بر شبكههاي پيشبيني كنندهٔ حالت بعدي و تابع پاداش، شبكهٔ دستهبندي نيز در نظر گرفته ميشود. شبكهٔ مذكور در صورتي كه دادههاي مصنوعي از توزيع دادههاي واقعي فاصلهٔ زيادي داشته باشند، افق شبيهسازي را متوقف ميكند تا از توليد دادههاي بيكيفيت جلوگيري شود. روش ارائه شده با ساير روشهاي مدل-مبنا مانند MVE و STEVE و همچنين روش بدون مدل DDPG روي مسئلهٔ HalfCheetah مقايسه ميگردد. نتايج نشان ميدهد كه روش ارائه شده از دو روش DDPG و MVE بهتر عمل ميكند اما مغلوب روش STEVE ميشود. البته پيچيدگي محاسباتي روش ارائه شده به مراتب كمتر از روش STEVE است و براي مسائلي كه حجم محاسبات مهم است، استفاده از روش ارائه شده ميتواند گزينهٔ مناسبي باشد.
چكيده انگليسي :
Efficient performance of robots depends on capable control systems design. Based on its perception, robot controller chooses commands to achieve a specific goal. State and action spaces of real-world problems are continuous and high dimensional. Reinforcement learning can handle complex problems but require many training samples collected via interaction with environment which is costly. For interaction reduction, hierarchical reinforcement learning and artificial samples generation using environment dynamics model can be used. First type of hierarchical methods is spatial decomposition which breaks the target task into simpler sub-tasks for each of which a sub-policy is learned. The agent’s behavior is a sequence of these sub-policies with specific goals so it is easily understandable and sub-policies can be initialized by domain knowledge. Second type of hierarchical methods is temporal abstraction which decomposes rollout to shorter ones with different time scales to accelerate learning but its working mechanism is not clear due to using a neural network at each layer of hierarchy. Due to clear working mechanism and the ability to use domain knowledge, a spatial decomposition approach named LaREPS is proposed which addresses previous hierarchical methods drawbacks such as focusing on just one sub-policy and non-hierarchical learning. In LaREPS, the top level policy chooses one of the sub-policies from the bottom level. The chosen sub-policy selects action for execution in the environment. The two levels of policy are learned using REPS method and clustering of collected data. Assigning each cluster to one of the sub-policies keeps them diverse. Comparison is made with hierarchical methods such as HiREPS, HIRO, HAC, HiPPO, and IOC on multimodal functions, puddle world, and pick-and-move problems. An experiment using KUKA iiwa robot is presented in which training is done in IIWA-STACK simulator and evaluation on the real robot. In the second part of this thesis, a novel dynamics model with adaptive simulation horizon for artificial samples generation is proposed. Using the model for simulation leads to accumulated error. To address this issue, a classifier network ends the simulation whenever the artificial samples distance to real samples distribution is larger than certain threshold. The proposed approach outperforms MVE and DDPG methods on HalfCheetah environment but is outperformed by STEVE. However, in problems that low computational complexity is important; the proposed approach can be a reasonable solution.
استاد راهنما :
مازيار پالهنگ
استاد مشاور :
مهران صفاياني
استاد داور :
محمدرضا احمدزاده، عبدالرضا ميرزائي