توصيفگر ها :
فوتبال ربات ها , يادگيري تقويتي , حمله از ميانه زمين , چندعاملي , پاداش
چكيده فارسي :
مسئلهٔ فوتبال رباتها يك مسئله براي به چالش كشيدن دانش متخصصين فعال در حوزه رباتيك و هوش مصنوعي است. در اين مسابقات دو تيم متشكل از چند ربات در قالب بازي فوتبال در برابر يكديگر قرار ميگيرند. در واقع محيط بازي فوتبال يك فضاي سرگرم كننده براي پياده سازي الگوريتمها و روشهاي مختلف و ايجاد يك فضاي رقابتي در اين حوزه است. هدف نهايي هر تيم در اين مسابقات گل زدن و گل نخوردن است. رسيدن به هدف ذكر شده نيازمند ايجاد توانايي و قابليتهاي مختلف در رباتها است. از جمله اين توامنديها ميتوان به توانايي شوت زدن، پاس دادن، تكل زدن، دويدن و ... اشاره كرد. در كنار اين تواناييهاي فردي توانايي كار تيمي و استراتژي كلي تيم نيز بسيار حائز اهميت است. براي رسيدن به يك استراتژي كارا و مطمئن راههاي بسياري وجود دارد. يكي از بهترين روشها استفاده از يادگيري تقويتي است. با توجه به برجسته بودن نياز به فاكتور تجربه و آزمون و خطا براي رباتها، يادگيري تقويتي به يك روش محبوب در ميان متخصصان حوزهٔ رباتيك و هوش مصنوعي تبديل شده است. با توجه به حضور چند بازيكن در هر تيم و نياز به همكاري ميان آنها، يادگيري تقويتي چندعاملي يك انتخاب مناسب است. يكي از مشكلاتي كه در محيطهاي چندعاملي وجود دارد، عدم همكاري مناسب ميان عاملها است كه منجر به رفتارهاي خودخواهانه در عاملها يا تنبل شدن آنها ميشود. در اين تحقيق با استفاده از يادگيري تقويتي به سياستي براي دفاع كردن رباتهاي فوتباليست در برابر حملات يك تيم هجومي پرداخته شده است. همچنين روشي براي تعريف بهتر تابع پاداش ارائه شده است كه بتواند راهنماي بهتري در حين فرايند يادگيري براي عاملها باشد. آنچه در اين پژوهش پيادهسازي شدهاست يك ساختار دفاعي است كه از نيمه زمين خودي در برابر حملات يك تيم مهاجم قرار ميگيرند و سعي ميكنند كه از گل زدن حريف جلوگيري كنند. نتايج اين تحقيق با تيم هليوس 1391(2012 م) كه قهرمان آن سال مسابقات روبوكاپ دوبعدي ميباشد و چند پژوهش ديگر مقايسه شده كه حاكي از برتري آن نسبت به ساير پژوهشها است. علت برتري اين روش نسبت به روشهاي پيشين ايجاد پاداش دقيقتر براي يادگيري بهتر عاملها نسبت به ساير روشها ميباشد.
چكيده انگليسي :
Robots soccer is a challenge for engaging researchers in the fields of robotics and artificial intelligence. In these competitions, two teams, each composed of several robots, compete against each other in the format of a soccer game. Indeed, the soccer game environment provides an entertaining platform for implementing various algorithms and methods, creating a competitive environment in this field. The ultimate goal for each team in these competitions is to score goals and not receiving goals. Achieving this aim requires the development of various abilities and capabilities for the robots. These capabilities include shooting, passing, tackling, running, and so on. Alongside these individual capabilities, the ability for teamwork and overall team strategy is also very important. There are many ways to develop an effective and reliable strategy. One of the best methods is Reinforcement Learning. Given the prominent need for experience and trial and error factors for robots, Reinforcement Learning has become a popular approach among experts in the fields of robotics and artificial intelligence. Considering the presence of multiple players on each team and the need for collaboration among them, multi-agent Reinforcement Learning is a suitable choice. One of the problems in multi-agent environments is the lack of proper cooperation among agents, leading to selfish behaviors or their laziness. In this research, a policy for defending soccer robots against attacks from an offensive team has been developed using Reinforcement Learning. In addition, a method has been proposed to better define the reward function, aiming to provide better guidance during the learning process for the agents. What has been implemented in addition is a defensive structure that faces the attacks of an attacking team from the inside half of the field and tries to prevent the opponent from scoring. The results of this research have been compared with the Helios team of 2012 , which is the champion of the 2D RoboCup competitions in that year, and some other researches, which indicate its superiority over them. The reason for the superiority of this method over previous methods is to create a more accurate reward for better learning of agents than other methods.