شماره مدرك :
19184
شماره راهنما :
16622
پديد آورنده :
مقدسي، محمد
عنوان :

دفاع كردن يك تيم فوتبال ربات ها با استفاده از يادگيري تقويتي با پاداش شكل دهي شده

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
دوازده، 85ص. : مصور،جدول، نمودار
توصيفگر ها :
فوتبال ربات ها , يادگيري تقويتي , حمله از ميانه زمين , چندعاملي , پاداش
تاريخ ورود اطلاعات :
1402/11/02
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندس كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/11/08
كد ايرانداك :
1182126
چكيده فارسي :
مسئلهٔ فوتبال ربات‌ها يك مسئله براي به چالش كشيدن دانش متخصصين فعال در حوزه رباتيك و هوش مصنوعي است. در اين مسابقات دو تيم متشكل از چند ربات در قالب بازي فوتبال در برابر يكديگر قرار مي‌گيرند. در واقع محيط بازي فوتبال يك فضاي سرگرم كننده براي پياده سازي الگوريتم‌ها و روش‌هاي مختلف و ايجاد يك فضاي رقابتي در اين حوزه است. هدف نهايي هر تيم در اين مسابقات گل زدن و گل نخوردن است. رسيدن به هدف ذكر شده نيازمند ايجاد توانايي و قابليت‌هاي مختلف در ربات‌ها است. از جمله اين ‌توامندي‌ها مي‌توان به توانايي شوت زدن، پاس دادن، تكل زدن، دويدن و ... اشاره كرد. در كنار اين توانايي‌هاي فردي توانايي كار تيمي و استراتژي كلي تيم نيز بسيار حائز اهميت است. براي رسيدن به يك استراتژي كارا و مطمئن راه‌هاي بسياري وجود دارد. يكي از بهترين روش‌ها استفاده از يادگيري تقويتي است. با توجه به برجسته بودن نياز به فاكتور تجربه و آزمون و خطا براي ربات‌ها، يادگيري تقويتي به يك روش محبوب در ميان متخصصان حوزهٔ رباتيك و هوش مصنوعي تبديل شده است. با توجه به حضور چند بازيكن در هر تيم و نياز به همكاري ميان آنها، يادگيري تقويتي چندعاملي يك انتخاب مناسب است. يكي از مشكلاتي كه در محيط‌هاي چندعاملي وجود دارد، عدم همكاري مناسب ميان عامل‌ها است كه منجر به رفتار‌هاي خودخواهانه در عامل‌ها يا تنبل شدن آنها مي‌شود. در اين تحقيق با استفاده از يادگيري تقويتي به سياستي براي دفاع كردن ربات‌هاي فوتباليست در برابر حملات يك تيم هجومي پرداخته شده است. همچنين روشي براي تعريف بهتر تابع پاداش ارائه شده است كه بتواند راهنماي بهتري در حين فرايند يادگيري براي عامل‌ها باشد. آنچه در اين پژوهش پياده‌سازي شده‌است يك ساختار دفاعي است كه از نيمه زمين خودي در برابر حملات يك تيم مهاجم قرار مي‌گيرند و سعي مي‌كنند كه از گل زدن حريف جلوگيري كنند. نتايج اين تحقيق با تيم هليوس 1391(2012 م) كه قهرمان آن سال مسابقات روبوكاپ دوبعدي مي‌باشد و چند پژوهش ديگر مقايسه شده كه حاكي از برتري آن نسبت به ساير پژوهش‌ها است. علت برتري اين روش نسبت به روش‌هاي پيشين ايجاد پاداش دقيق‌تر براي يادگيري بهتر عامل‌ها نسبت به ساير روش‌ها مي‌باشد.
چكيده انگليسي :
Robots soccer is a challenge for engaging researchers in the fields of robotics and artificial intelligence. In these competitions, two teams, each composed of several robots, compete against each other in the format of a soccer game. Indeed, the soccer game environment provides an entertaining platform for implementing various algorithms and methods, creating a competitive environment in this field. The ultimate goal for each team in these competitions is to score goals and not receiving goals. Achieving this aim requires the development of various abilities and capabilities for the robots. These capabilities include shooting, passing, tackling, running, and so on. Alongside these individual capabilities, the ability for teamwork and overall team strategy is also very important. There are many ways to develop an effective and reliable strategy. One of the best methods is Reinforcement Learning. Given the prominent need for experience and trial and error factors for robots, Reinforcement Learning has become a popular approach among experts in the fields of robotics and artificial intelligence. Considering the presence of multiple players on each team and the need for collaboration among them, multi-agent Reinforcement Learning is a suitable choice. One of the problems in multi-agent environments is the lack of proper cooperation among agents, leading to selfish behaviors or their laziness. In this research, a policy for defending soccer robots against attacks from an offensive team has been developed using Reinforcement Learning. In addition, a method has been proposed to better define the reward function, aiming to provide better guidance during the learning process for the agents. What has been implemented in addition is a defensive structure that faces the attacks of an attacking team from the inside half of the field and tries to prevent the opponent from scoring. The results of this research have been compared with the Helios team of 2012 , which is the champion of the 2D RoboCup competitions in that year, and some other researches, which indicate its superiority over them. The reason for the superiority of this method over previous methods is to create a more accurate reward for better learning of agents than other methods.
استاد راهنما :
مازيار پالهنگ
استاد داور :
مهران صفاياني , عبدالرضا ميرزايي
لينک به اين مدرک :

بازگشت