توصيفگر ها :
يادگيري عميق , يادگيري تقويتي , يادگيري تقليدي , ربات نائو , شبيهساز گزبو
چكيده فارسي :
تمركز اصلي اين پژوهش در زمينه آموزش مهارت به عامل يادگيرنده با كمك فيلمي از نحوهي انجام آن مهارت توسط عامل خبره است. با توجه به پيشرفتهاي سالهاي اخير در حوزه يادگيري عميق و يادگيري تقويتي، يادگيري تقويتي عميق قادر به حل چالشهاي بسياري در محيطهاي ناشناخته با بيشينه كردن مجموع پاداش دريافتي بوده است. با اين وجود روشهاي يادگيري تقويتي عميق براي دستيابي به يك سياست مناسب نياز به دادههاي آموزشي بسياري دارند كه به صورت برخط توسط تعامل با محيط توليد ميشوند، به همين دليل يادگيري مهارتهاي پيچيده با كمك يادگيري تقويتي به زمان زيادي آموزش نياز دارد. علاوه بر اين روشهاي يادگيري تقويتي در محيطهايي كه تابع پاداش مناسبي براي آنها در دسترس نيست كارآيي ضعيفي دارند. با اين وجود براي بسياري از مسائل، سيستمهايي پيادهسازي شدهاند كه كارآيي نسبتاً خوبي دارند. بنابراين ميتوان با تقليد از رفتار اين سيستمها، ميزان تعامل با محيط را تا حد زيادي كم كرده و سرعت آموزش را افزايش داد، همچنين با بهينه كردن سياست خود به عمكرد بهتري نسبت به سيستمهاي قبلي رسيد.
امروزه با توجه به پيشرفت رسانهها، فيلمهاي رايگان بسياري از انجام مهارتهاي متفاوت در فضاي مجازي موجود است. در اين پژوهش ما روشي نوين براي آموزش شبكه عصبي عميق با استفاده از فيلم پيشنهاد ميدهيم، بطوري كه اين شبكه قادر به استخراج ويژگيهاي معنا داري از رفتار عامل خبره در فيلم ميباشد. سپس با مقايسهي رفتار عامل خبره در فيلم آموزشي و رفتار عامل يادگيرنده پاداشي تحت عنوان پاداش تقليدي با كمك تابع پاداش پيشنهادي خود توليد ميكنيم. اين پاداش الگوريتم يادگيري تقويتي عميق را تشويق به انجام رفتاري شبيه به رفتار عامل خبره ميكند و باعث افزايش سرعت يادگيري و كاهش هزينهي آموزش ميشود. در ادامه عمكرد الگوريتم خود را با تعدادي از الگوريتمهاي لبه فناوري در حوزهي يادگيري تقليدي مقايسه ميكنيم و در نهايت دو مهارت سلام كردن و پاك كردن را به ربات نائو در شبيهساز گزبو آموزش ميدهيم.
چكيده انگليسي :
The main focus of this research is teaching a skill to a learning agent via a video of an expert performing that skill. In recent years, with the advances made in Deep Learning and Reinforcement Learning, Deep Reinforcement Learning models have been able to solve many challenges in environments that are unknown to the agent, by maximizing the sum of a reward received. However, Deep Reinforcement Learning methods require a large training dataset to obtain a reasonable policy, and this dataset must be made by interaction with the environment. This makes RL difficult and costly to learning complex skills and takes a lot of training time. Also, RL methods are ineffective in environments for which a suitable reward function is not available. However, for many problems, systems have been implemented that are relatively efficient. Therefore, by imitating the behavior of these systems, the amount of interaction with the environment can be greatly reduced and the speed of training can be increased, the learner can optimize its policy to achieve better performance than previous systems.
Today, with the advancement of media, free movies from many different skills available in cyberspace. In this study, we propose a method for teaching deep neural network using a video, so that this network is able to extract meaningful features from the behavior of the expert agent in the video. Then, by comparing the behavior of the expert agent and the behavior of the learner agent in the video, we generate an imitation reward. This reward encourages deep learning algorithms to perform behavior similar to expert agent, as a result increasing learning speed and reducing training costs. Then we compare the performance of our algorithm with a state of the art algorithms in the field of imitation learning, and finally we teach the two skills of hello and wipe actions to a Nao robot in the Gazebo simulator.