شماره مدرك :
18246
شماره راهنما :
15888
پديد آورنده :
كوچكي ورنوسفادراني، احسان
عنوان :

كنترل حفظ تعادل ربات انسان‌ نما با استفاده از يادگيري تقويتي عميق

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1401
صفحه شمار :
دوازده، 86ص.: مصور، جدول، نمودار
توصيفگر ها :
ربات انسان‌نما , كنترل سلسله‌مراتبي , يادگيري تقويتي عميق , بهينه‌سازي سياست نزديك
تاريخ ورود اطلاعات :
1401/12/06
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1401/12/06
كد ايرانداك :
2909434
چكيده فارسي :
كنترل ربات‌هاي انسان‌نما بنا بر دلايلي همچون درجه‌هاي آزادي بالا، وجود ديناميك تركيبي و محدوديت‌هاي موجود در اقدامگرها و حسگرها نسبت به ساير ربات‌هاي متحرك داراي چالش‌هاي فراواني است. يادگيري تقويتي به عنوان روشي براي مقابله با كاستي‌هايي كه معمولاًً در شيوه‌هاي سنتي كنترل بازخورد وجود دارد، مورد توجه پژوهشگران قرار گرفته است. در اين روش سياست كنترل ربات بر مبناي تعامل عامل با محيط و دريافت پاداش تدوين مي‌شود. در اين پايان‌نامه يك الگوريتم سلسله مراتبي متشكل از دو سطح براي كنترل حفظ تعادل مدل شبيه‌سازي شده‌ي يك ربات انسان‌نما ارائه شده است. در سطح بالا با استفاده از يك جفت شبكه‌ي عصبي عميق، يك سياست تعيين مي‌شود كه مقدارهاي مرجعي را براي موقعيت زاويه‌اي مفصل‌هاي ربات مشخص مي‌كند. در سطح پايين، يك كنترل‌كننده‌ي PID ربات را حول مقدارهاي مرجع پايدار مي‌كند. بروزرساني شبكه‌هاي عصبي بر اساس پاداش‌هاي دريافت شده از محيط و با استفاده از الگوريتم بهينه‌سازي سياست نزديك انجام مي‌شود. پياده‌سازي الگوريتم ارائه شده در يك محيط شبيه‌ساز و با استفاده از برنامه‌نويسي به زبان پايتون انجام شده است. يكي از مشكلات پژوهش‌هاي انجام شده‌ي قبلي طولاني بودن زمان يادگيري و نحوه‌ي مصالحه بين اكتشاف و بهره‌برداري در طول فرآيند آموزش است. در اين پايان‌نامه به عنوان نوآوري از نمونه‌برداري در فضاي عمل با استفاده از توزيع بتا و محدود كردن عمل به عنوان يك راه حل استفاده شده است. در آزمايش‌هاي انجام شده براي ارزيابي عملكرد الگوريتم، از ربات خواسته شد در برابر پيكربندي‌هاي اوليه‌ي تصادفي، ضربه‌هاي اعمال شده به بالاتنه و همچنين ضربه‌هاي ناشي از برخورد توپ تعادل خود را حفظ كند. مطابق نتايج به دست آمده، مدل ياد گرفته شده بر اساس الگوريتم ارائه شده عملكرد خوبي در كنترل حفظ تعادل ربات از خود نشان داد. همچنين الگوريتم در مقايسه با كنترل كننده‌ي PID كارايي بهتري از خود نشان داد. در ادامه‌ي ارزيابي‌هاي انجام شده، عملكرد الگوريتم پيشنهادي با الگوريتم موجود در يكي از پژوهش‌هاي قبلي مقايسه شد. نتايج اين بخش نشان داد الگوريتم حاضر عملكرد بهتري در كنترل حفظ تعادل ربات دارد.
چكيده انگليسي :
The control of humanoid robots is a challenging topic due to issues such as high degrees of freedoms, hybrid dynamic and limitations in actuators and sensors. Reinforcement learning has attract much attentions as a method to deal with some deficiencies of classic control methods. In this method the robot control policy is designed based on interaction between agent and environment and obtained rewards. In this thesis, a hierarchical algorithm including two levels is presented for balance maintenance control of a simulated model of a humanoid robot. At the high level, a deep neural network pair specifies a policy which defines target values for joint positions. Within the low level, a PID controller regulates the robot around the reference configuration. The network updating is performed based on obtained rewards using proximal policy optimization. The algorithm is implemented in a simulation environment using Python programming. One of the main challenges in previous researches is the compromising between exploration and exploitation and prolongation of learning process. The contribution of this thesis is sampling action using Beta distribution and limitation of action to overcome the above mentioned problems. During algorithm eva‎luation, robot is asked to keep its balance stability against initial random configurations, exerted pushes, and impacts of ball shoot. According to results, the learned model based on proposed algorithm, displays a good functionality in balance maintenance control. Within conducted eva‎luations, the algorithm performance is compared with the PID controller and one of the previous works as well. The results shows that the present algorithm has better capability in robot balance control.
استاد راهنما :
مهران صفاياني
استاد داور :
مهران صفاياني , سمانه حسيني
لينک به اين مدرک :

بازگشت