پديد آورنده :
شفاعت، پويان
عنوان :
يادگيري تقويتي عميق ربات دوپا جهت راه رفتن روي سطح شيب دار با استفاده از بهينه سازي سياست مجاورتي
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
طراحي كاربردي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
[ده]، 74ص. :مصور، جدول، نمودار
توصيفگر ها :
يادگيري تقويتي عميق , بهينهسازي سياست مجاورتي(PPO) , كنترل ربات , ربات دوپا , يادگيري جهت راه رفتن , كنترل مقاوم , موجوكو جيم , سطح شيبدار
تاريخ ورود اطلاعات :
1402/02/06
رشته تحصيلي :
مهندسي مكانيك
تاريخ ويرايش اطلاعات :
1403/04/18
چكيده فارسي :
كنترل حركت ربات دوپا يكي از مسئلههاي چالشبرانگيز در زمينه كنترل و رباتيك ميباشد. روشهاي كلاسيك مدل-محور براي حل اين مسئله به طراحي مسير و همچنين يك سيكل تكرارشونده به نام گيت براي پاهاي ربات ميپردازند، سپس يك كنترلكننده براي ربات طراحي ميشود. هر چند روشهاي كلاسيك مدل-محور ربات را مجبور به تكرار يك الگو به صورت دقيق ميكند، ولي معمولا نياز به فرضهاي سادهساز و مدل دقيق دارد. روشهاي يادگيري تقويتي عميق كه الهام گرفته از مغز انسان است يك رويكرد مقاوم و تطبيقپذير جهت كنترل و تصميمگيري ارائه ميدهد.
اين پژوهش به بررسي پيشرفتهاي اخير يادگيري تقويتي عميق و كاربرد آن در كنترل هوشمند حركت ربات ميپردازد. استفاده شبكههاي عصبي مصنوعي در اين روش كارايي آن را در مسئلههاي كنترلي بسيار افزايش داده است. در اين پژوهش از الگوريتم بهينهسازي سياست مجاورتي كه يك روش يادگيري تقويتي عميق بدون-مدل است جهت آموزش ربات دوپاي محيط Walker-2d جيم در شبيهساز MuJoCo استفاده ميشود.
طراحي كنترلكننده به صورت پايان به پايان ميباشد، به اين معني كه كنترلكننده، كل فرايند دريافت دادههاي حسگري تا توليد فرمانهاي گشتاور را خودش به تنهايي و بدون نياز به سيستم ديگري انجام ميدهد. در اين پژوهش اقدام به آموزش ربات دوپا روي زمينهايي با شيبهاي مختلف ميشود. براي انجام اين آموزش بنا به لزوم، تابع پاداش محيط به منظور ايجاد انگيزه در عامل براي راه رفتن در جهت موازي با جهت زمين شيبدار اصلاح ميشود. علاوه بر آن، شرط تمام شدن اجراي محيط جهت قادر ساختن ربات به ادامه اجرا در صورت افزايش يا كاهش ارتفاع ناشي از راه رفتن بر روي سطح شيبدار تغيير داده ميشود. دليل ديگر اين اصلاح، وابستگي تابع پاداش به شرط اجرا ميباشد، به صورتي كه در هر گام زماني كه شرط اتمام اجرا نقض نشود و ربات زنده بماند پاداش مثبتي دريافت ميكند. اين پژوهش نشاندهنده پتانسيل بالاي الگوريتمهاي يادگيري تقويتي عميق جهت كنترل هوشمند حركت ربات و تطبيقپذيري بالاي آن در محيطهايي با شيبهاي مختلف است.
آزمايش ديگري روي ربات آموزش ديده روي يك محيط شيبدار با شيب معين انجام ميشود تا قوام آن براي راه رفتن روي زمين با شيبهاي ديگر ارزيابي شود. نتايج اين آزمايش نشان ميدهد كه بر خلاف انتظار، ربات هنوز تا حدودي قادر به راه رفتن است. همچنين آزمايشي نيز جهت تحليل و گزارش دادههاي گشتاور و دادههاي حالت همچون سرعت و موقعيت ربات انجام ميشود.
چكيده انگليسي :
Bipedal locomotion control is a challenging problem in the field of control and robotics. Conventional model-based methods involve designing a gait cycle and path planning for each robot leg followed by designing a controller. However, classical model-based methods force the robot to exactly repeat a designed pattern, it usually requires simplifying assumptions and accurate modelling. Reinforcement learning (RL) methods offer an adaptable, robust approach inspired by the human brain.
This study explores recent advances in deep reinforcement learning algorithms and their application to intelligent robot locomotion control. The use of artificial neural networks (ANNs) makes deep RL methods powerful in complex control tasks. We employed the Proximal Policy Optimization (PPO), a model-free deep RL algorithm to train a bipedal walking robot model using the MuJoCo simulator and Walker-2d environment.
We attempt an end-to-end approach where the controller performs the whole procedure of getting sensory inputs to producing torque commands by itself without needing any other system. In this research a bipedal robot is trained to walk on different terrains with different slopes. Necessarily the reward function of the environment is modified in order to make incentive for the robot to go along the direction parallel to the ramp direction. In addition, the environments episode termination condition has been changed, allowing the bipedal robot to continue the episode while its height increases or decreases due to walking on sloped terrain. The other reason for this modification is the dependency of the reward function to the episode termination, as robot gets a positive reward if the termination condition is not violated and robot stays alive in each timestep. This research demonstrates the potential of deep reinforcement learning algorithms for robot locomotion control and their ability to adapt to terrains with different slopes.
Another experiment is done on a trained robot on a ramp with a certain slope to evaluate its robustness for walking on terrains with other slopes. This experiment shows that surprisingly, robot still was able to walk to some extent. Furthermore, we perform some experiment to report torque commands and states such as velocity and position of the robot during the tests.
استاد داور :
سعيد بهبهاني , مهدي كاروان