شماره مدرك :
18504
شماره راهنما :
16094
پديد آورنده :
خاشعي ورنامخواستي، مريم
عنوان :

بهبود استراتژي پاسكاري عوامل در يك تيم شبيه‌ساز فوتبال رباتيك

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1401
صفحه شمار :
سيزده، 70ص. : مصور (رنگي)، جدول، نمودار
توصيفگر ها :
يادگيري تقويتي , تجزيه مقدار , فوتبال رباتيك , همكاري , هماهنگي , حمله از ميانه‌ي زمين
تاريخ ورود اطلاعات :
1402/02/18
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/02/18
كد ايرانداك :
2927036
چكيده فارسي :
هدف اين پژوهش بهبود استراتژي پاسكاري گروهي از عوامل در يك تيم شبيه‌سازي فوتبال رباتيك است. در واقع پاسكاري را مي‌توان به عنوان نماد همكاري بازيكنان در يك تيم فوتبال در نظر گرفت. تيم‌هايي كه استراتژي پاسكاري بهتري دارند، بازيكنانشان در حركت دادن توپ در سطح زمين، حفظ مالكيت توپ و دستيابي به پيروزي موفق‌تر خواهند بود. منظور از استراتژي پاسكاري عوامل اين است كه هر بازيكن در هر لحظه از بازي تصميم بگيرد كه بهترين عمل براي انجام چه چيزي است و اگر بهترين عمل پاس دادن است بهتر است در چه زماني و به چه بازيكني پاس داده شود. در اين پژوهش از روش يادگيري تقويتي چند عاملي عميق براي حل مسئله استفاده شد. ماهيت مسئله‌ي مطرح شده در اين پژوهش يك مسئله‌ي يادگيري تقويتي چند عاملي مشاركتي با سيگنال پاداش مشترك است. اين دسته از مسائل اغلب به دليل داشتن فضاي حالت-عمل مشترك بزرگ براي يادگيري دشوار هستند. رويكردهاي كاملاً متمركز و غيرمتمركز، اغلب با مشكلاتي همچون مقياس‌پذيري، پاداش‌هاي جعلي و پديده‌ي عامل تنبل مواجه هستند. در اين پژوهش براي مقابله با اين مشكلات از معماري شبكه تجزيه مقدار استفاده شده است، كه تابع مقدار تيمي را به توابع مقدار فردي تجزيه مي‌كند و در دسته‌ي رويكردهاي آموزش متمركز و اجراي غيرمتمركز قرار مي‌گيرد. در اين روش در زمان اجرا هر عامل يادگيري مي‌تواند بدون برقراري ارتباط با ديگران و تنها بر اساس مشاهدات فردي خود تصميم‌گيري كند. نتايج آزمايش‌هاي انجام شده نشان دهنده‌ي عملكرد مطلوب روش پيشنهادي است.
چكيده انگليسي :
This study aimed to improve the passing strategy of a group of agents in a robotic soccer simulation team. In fact, the passing strategy can be considered as the symbol of cooperation between players in a soccer team. The teams with a better passing strategy will be more successful in moving the ball in the field, maintaining possession, and winning. The meaning of the agents’ passing strategy is that a player at each moment of the game decides which action is the best to do, and if the best action is to pass, at what time and to which player should pass the ball. In this research, the deep multi agent reinforcement learning method was used. The problem is a cooperative deep multi-agent reinforcement learning with a single joint reward signal. This class of problems is often difficult to learn due to its large joint state-action space. Fully centralized and decentralized approaches often face problems such as scalability, spurious rewards, and lazy agent phenomenon. In this research, value decomposition network architecture was used to deal with these problems, this method learns to decompose the team value function into individual value functions. The method which was used is in the category of centralized training and decentralized execution approaches, and in this method, each learning agent can make decisions without communicating with others and only based on its individual observations. The results of performed experiments indicated the optimal performance of the proposed method.
استاد راهنما :
مازيار پالهنگ
استاد داور :
عبدالرضا ميرزايي , مهران صفاياني
لينک به اين مدرک :

بازگشت