شماره مدرك :
18451
شماره راهنما :
16052
پديد آورنده :
شفاعت، پويان
عنوان :

يادگيري تقويتي عميق ربات دوپا جهت راه رفتن روي سطح شيب دار با استفاده از بهينه سازي سياست مجاورتي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
طراحي كاربردي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1401
صفحه شمار :
[ده]، 74ص. :مصور، جدول، نمودار
توصيفگر ها :
يادگيري تقويتي عميق , بهينه‌سازي سياست مجاورتي(PPO) , كنترل ربات , ربات دوپا , يادگيري جهت راه رفتن , كنترل مقاوم , موجوكو جيم , سطح شيب‌دار
تاريخ ورود اطلاعات :
1402/02/06
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي مكانيك
دانشكده :
مهندسي مكانيك
تاريخ ويرايش اطلاعات :
1403/04/18
كد ايرانداك :
2625762
چكيده فارسي :
كنترل حركت ربات دوپا يكي از مسئله‌هاي چالش‌برانگيز در زمينه كنترل و رباتيك مي‌باشد. روش‌هاي كلاسيك مدل-محور براي حل اين مسئله به طراحي مسير و همچنين يك سيكل تكرارشونده به نام گيت براي پاهاي ربات مي‌پردازند، سپس يك كنترل‌كننده براي ربات طراحي مي‌شود. هر چند روش‌هاي كلاسيك مدل-محور ربات را مجبور به تكرار يك الگو به صورت دقيق مي‌كند، ولي معمولا نياز به فرض‌هاي ساده‌ساز و مدل دقيق دارد. روش‌هاي يادگيري تقويتي عميق كه الهام گرفته از مغز انسان است يك رويكرد مقاوم و تطبيق‌پذير جهت كنترل و تصميم‌گيري ارائه مي‌دهد. اين پژوهش به بررسي پيشرفت‌هاي اخير يادگيري تقويتي عميق و كاربرد آن در كنترل هوشمند حركت ربات مي‌پردازد. استفاده شبكه‌هاي عصبي مصنوعي در اين روش كارايي آن را در مسئله‌هاي كنترلي بسيار افزايش داده است. در اين پژوهش از الگوريتم بهينه‌سازي سياست مجاورتي كه يك روش يادگيري تقويتي عميق بدون-مدل است جهت آموزش ربات دوپاي محيط Walker-2d جيم در شبيه‌ساز MuJoCo استفاده مي‌شود. طراحي كنترل‌كننده به صورت پايان به پايان مي‌باشد، به اين معني كه كنترل‌كننده، كل فرايند دريافت داده‌هاي حسگري تا توليد فرمان‌هاي گشتاور را خودش به تنهايي و بدون نياز به سيستم ديگري انجام مي‌دهد. در اين پژوهش اقدام به آموزش ربات دوپا روي زمين‌هايي با شيب‌هاي مختلف مي‌شود. براي انجام اين آموزش بنا به لزوم، تابع پاداش محيط به منظور ايجاد انگيزه در عامل براي راه رفتن در جهت موازي با جهت زمين شيب‌دار اصلاح مي‌شود. علاوه بر آن، شرط تمام شدن اجراي محيط جهت قادر ساختن ربات به ادامه اجرا در صورت افزايش يا كاهش ارتفاع ناشي از راه رفتن بر روي سطح شيب‌دار تغيير داده مي‌شود. دليل ديگر اين اصلاح، وابستگي تابع پاداش به شرط اجرا مي‌باشد، به صورتي كه در هر گام زماني كه شرط اتمام اجرا نقض نشود و ربات زنده بماند پاداش مثبتي دريافت مي‌كند. اين پژوهش نشان‌دهنده پتانسيل بالاي الگوريتم‌هاي يادگيري تقويتي عميق جهت كنترل هوشمند حركت ربات و تطبيق‌پذيري بالاي آن در محيط‌هايي با شيب‌هاي مختلف است. آزمايش ديگري روي ربات آموزش ديده روي يك محيط شيب‌دار با شيب معين انجام مي‌شود تا قوام آن براي راه رفتن روي زمين با شيب‌هاي ديگر ارزيابي شود. نتايج اين آزمايش نشان مي‌دهد كه بر خلاف انتظار، ربات هنوز تا حدودي قادر به راه رفتن است. همچنين آزمايشي نيز جهت تحليل و گزارش داده‌هاي گشتاور و داده‌هاي حالت همچون سرعت و موقعيت ربات انجام مي‌شود.
چكيده انگليسي :
Bipedal locomotion control is a challenging problem in the field of control and robotics. Conventional model-based methods involve designing a gait cycle and path planning for each robot leg followed by designing a controller. However, classical model-based methods force the robot to exactly repeat a designed pattern, it usually requires simplifying assumptions and accurate modelling. Reinforcement learning (RL) methods offer an adaptable, robust approach inspired by the human brain. This study explores recent advances in deep reinforcement learning algorithms and their application to intelligent robot locomotion control. The use of artificial neural networks (ANNs) makes deep RL methods powerful in complex control tasks. We employed the Proximal Policy Optimization (PPO), a model-free deep RL algorithm to train a bipedal walking robot model using the MuJoCo simulator and Walker-2d environment. We attempt an end-to-end approach where the controller performs the whole procedure of getting sensory inputs to producing torque commands by itself without needing any other system. In this research a bipedal robot is trained to walk on different terrains with different slopes. Necessarily the reward function of the environment is modified in order to make incentive for the robot to go along the direction parallel to the ramp direction. In addition, the environments episode termination condition has been changed, allowing the bipedal robot to continue the episode while its height increases or decreases due to walking on sloped terrain. The other reason for this modification is the dependency of the reward function to the episode termination, as robot gets a positive reward if the termination condition is not violated and robot stays alive in each timestep. This research demonstrates the potential of deep reinforcement learning algorithms for robot locomotion control and their ability to adapt to terrains with different slopes. Another experiment is done on a trained robot on a ramp with a certain slope to eva‎luate its robustness for walking on terrains with other slopes. This experiment shows that surprisingly, robot still was able to walk to some extent. Furthermore, we perform some experiment to report torque commands and states such as velocity and position of the robot during the tests.
استاد راهنما :
محمد دانش
استاد داور :
سعيد بهبهاني , مهدي كاروان
لينک به اين مدرک :

بازگشت