پديد آورنده :
كوچكي ورنوسفادراني، احسان
عنوان :
كنترل حفظ تعادل ربات انسان نما با استفاده از يادگيري تقويتي عميق
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
دوازده، 86ص.: مصور، جدول، نمودار
توصيفگر ها :
ربات انساننما , كنترل سلسلهمراتبي , يادگيري تقويتي عميق , بهينهسازي سياست نزديك
تاريخ ورود اطلاعات :
1401/12/06
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1401/12/06
چكيده فارسي :
كنترل رباتهاي انساننما بنا بر دلايلي همچون درجههاي آزادي بالا، وجود ديناميك تركيبي و محدوديتهاي موجود در اقدامگرها و حسگرها نسبت به ساير رباتهاي متحرك داراي چالشهاي فراواني است. يادگيري تقويتي به عنوان روشي براي مقابله با كاستيهايي كه معمولاًً در شيوههاي سنتي كنترل بازخورد وجود دارد، مورد توجه پژوهشگران قرار گرفته است. در اين روش سياست كنترل ربات بر مبناي تعامل عامل با محيط و دريافت پاداش تدوين ميشود. در اين پاياننامه يك الگوريتم سلسله مراتبي متشكل از دو سطح براي كنترل حفظ تعادل مدل شبيهسازي شدهي يك ربات انساننما ارائه شده است. در سطح بالا با استفاده از يك جفت شبكهي عصبي عميق، يك سياست تعيين ميشود كه مقدارهاي مرجعي را براي موقعيت زاويهاي مفصلهاي ربات مشخص ميكند. در سطح پايين، يك كنترلكنندهي PID ربات را حول مقدارهاي مرجع پايدار ميكند. بروزرساني شبكههاي عصبي بر اساس پاداشهاي دريافت شده از محيط و با استفاده از الگوريتم بهينهسازي سياست نزديك انجام ميشود. پيادهسازي الگوريتم ارائه شده در يك محيط شبيهساز و با استفاده از برنامهنويسي به زبان پايتون انجام شده است. يكي از مشكلات پژوهشهاي انجام شدهي قبلي طولاني بودن زمان يادگيري و نحوهي مصالحه بين اكتشاف و بهرهبرداري در طول فرآيند آموزش است. در اين پاياننامه به عنوان نوآوري از نمونهبرداري در فضاي عمل با استفاده از توزيع بتا و محدود كردن عمل به عنوان يك راه حل استفاده شده است. در آزمايشهاي انجام شده براي ارزيابي عملكرد الگوريتم، از ربات خواسته شد در برابر پيكربنديهاي اوليهي تصادفي، ضربههاي اعمال شده به بالاتنه و همچنين ضربههاي ناشي از برخورد توپ تعادل خود را حفظ كند. مطابق نتايج به دست آمده، مدل ياد گرفته شده بر اساس الگوريتم ارائه شده عملكرد خوبي در كنترل حفظ تعادل ربات از خود نشان داد. همچنين الگوريتم در مقايسه با كنترل كنندهي PID كارايي بهتري از خود نشان داد. در ادامهي ارزيابيهاي انجام شده، عملكرد الگوريتم پيشنهادي با الگوريتم موجود در يكي از پژوهشهاي قبلي مقايسه شد. نتايج اين بخش نشان داد الگوريتم حاضر عملكرد بهتري در كنترل حفظ تعادل ربات دارد.
چكيده انگليسي :
The control of humanoid robots is a challenging topic due to issues such as high degrees of freedoms, hybrid dynamic and limitations in actuators and sensors. Reinforcement learning has attract much attentions as a method to deal with some deficiencies of classic control methods. In this method the robot control policy is designed based on interaction between agent and environment and obtained rewards. In this thesis, a hierarchical algorithm including two levels is presented for balance maintenance control of a simulated model of a humanoid robot. At the high level, a deep neural network pair specifies a policy which defines target values for joint positions. Within the low level, a PID controller regulates the robot around the reference configuration. The network updating is performed based on obtained rewards using proximal policy optimization. The algorithm is implemented in a simulation environment using Python programming. One of the main challenges in previous researches is the compromising between exploration and exploitation and prolongation of learning process. The contribution of this thesis is sampling action using Beta distribution and limitation of action to overcome the above mentioned problems.
During algorithm evaluation, robot is asked to keep its balance stability against initial random configurations, exerted pushes, and impacts of ball shoot. According to results, the learned model based on proposed algorithm, displays a good functionality in balance maintenance control. Within conducted evaluations, the algorithm performance is compared with the PID controller and one of the previous works as well. The results shows that the present algorithm has better capability in robot balance control.
استاد راهنما :
مهران صفاياني
استاد داور :
مهران صفاياني , سمانه حسيني