شماره مدرك :
17035
شماره راهنما :
15084
پديد آورنده :
جليليان، عباس
عنوان :

يادگيري تقليدي مهارت توسط ربات انسان‌نما و بهبود عملكرد آن با يادگيري تقويتي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيك
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
دوازده، 96ص. : مصور، جدول، نمودار
استاد راهنما :
مازيار پالهنگ
توصيفگر ها :
يادگيري عميق , يادگيري تقويتي , يادگيري تقليدي , ربات نائو , شبيه‌ساز گزبو
استاد داور :
مهران صفاياني، سمانه حسيني
تاريخ ورود اطلاعات :
1400/10/26
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1400/10/28
كد ايرانداك :
2798412
چكيده فارسي :
تمركز اصلي اين پژوهش در زمينه آموزش مهارت به عامل يادگيرنده با كمك فيلمي از نحوه‌ي انجام آن مهارت توسط عامل خبره است. با توجه به پيشرفت‌هاي سال‌هاي اخير در حوزه ‌يادگيري عميق و يادگيري تقويتي، يادگيري تقويتي عميق قادر به حل چالش‌هاي بسياري در محيط‌هاي ناشناخته با بيشينه كردن مجموع پاداش دريافتي بوده است. با اين وجود روش‌هاي يادگيري تقويتي عميق براي دستيابي به يك سياست مناسب نياز به داده‌هاي آموزشي بسياري دارند كه به صورت برخط توسط تعامل با محيط توليد ‌‌مي‌شوند، به همين دليل يادگيري مهارت‌هاي پيچيده با كمك يادگيري تقويتي به زمان زيادي آموزش نياز دارد. علاوه بر اين روش‌هاي يادگيري تقويتي در محيط‌هايي كه تابع پاداش مناسبي براي آن‌ها در دسترس نيست كارآيي ضعيفي دارند. با اين وجود براي بسياري از مسائل، سيستم‌هايي پياده‌سازي شده‌اند كه كارآيي نسبتاً خوبي دارند. بنابراين مي‌توان با تقليد از رفتار اين سيستم‌ها، ميزان تعامل با محيط را تا حد زيادي كم كرده و سرعت آموزش را افزايش داد، همچنين با بهينه كردن سياست خود به عمكرد بهتري نسبت به سيستم‌هاي قبلي رسيد. امروزه با توجه به پيشرفت رسانه‌ها، فيلم‌هاي رايگان بسياري از انجام مهارت‌هاي متفاوت در فضاي مجازي موجود است. در اين پژوهش ما روشي نوين براي آموزش شبكه عصبي عميق با استفاده از فيلم پيشنهاد مي‌دهيم، بطوري كه اين شبكه قادر به استخراج ويژگي‌هاي معنا داري از رفتار عامل خبره در فيلم مي‌باشد. سپس با مقايسه‌ي رفتار عامل خبره در فيلم آموزشي و رفتار عامل يادگيرنده پاداشي تحت عنوان پاداش تقليدي با كمك تابع پاداش پيشنهادي خود توليد مي‌كنيم. اين پاداش الگوريتم يادگيري تقويتي عميق را تشويق به انجام رفتاري شبيه به رفتار عامل خبره مي‌كند و باعث افزايش سرعت يادگيري و كاهش هزينه‌ي آموزش مي‌شود. در ادامه عمكرد الگوريتم خود را با تعدادي از الگوريتم‌هاي لبه فناوري در حوزه‌ي يادگيري تقليدي مقايسه مي‌كنيم و در نهايت دو مهارت سلام كردن و پاك كردن را به ربات نائو در شبيه‌ساز گزبو آموزش مي‌دهيم.
چكيده انگليسي :
The main focus of this research is teaching a skill to a learning agent via a video of an expert performing that skill. In recent years, with the advances made in Deep Learning and Reinforcement Learning, Deep Reinforcement Learning models have been able to solve many challenges in environments that are unknown to the agent, by maximizing the sum of a reward received. However, Deep Reinforcement Learning methods require a large training dataset to obtain a reasonable policy, and this dataset must be made by interaction with the environment. This makes RL difficult and costly to learning complex skills and takes a lot of training time. Also, RL methods are ineffective in environments for which a suitable reward function is not available. However, for many problems, systems have been implemented that are relatively efficient. Therefore, by imitating the behavior of these systems, the amount of interaction with the environment can be greatly reduced and the speed of training can be increased, the learner can optimize its policy to achieve better performance than previous systems. Today, with the advancement of media, free movies from many different skills available in cyberspace. In this study, we propose a method for teaching deep neural network using a video, so that this network is able to extract meaningful features from the behavior of the expert agent in the video. Then, by comparing the behavior of the expert agent and the behavior of the learner agent in the video, we generate an imitation reward. This reward encourages deep learning algorithms to perform behavior similar to expert agent, as a result increasing learning speed and reducing training costs. Then we compare the performance of our algorithm with a state of the art algorithms in the field of imitation learning, and finally we teach the two skills of hello and wipe actions to a Nao robot in the Gazebo simulator.
استاد راهنما :
مازيار پالهنگ
استاد داور :
مهران صفاياني، سمانه حسيني
لينک به اين مدرک :

بازگشت