شماره راهنما :
2059 دكتري
پديد آورنده :
اميني، سارا
عنوان :
يادگيري چندعاملي با نگاه ذهني در محيطهاي نيمهمشاهدهپذير با وظايف مكاني
گرايش تحصيلي :
هوش مصنوعي و رباتيك
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
سيزده، 112ص. : مصور، جدول، نمودار
توصيفگر ها :
تخصيص وظيفه غيرمتمركز , يادگيري چندعاملي , سيستم چندرباتي , دنياي نيمه مشاهده پذير , كار تيمي , طرح ريزي مونت كارلو
تاريخ ورود اطلاعات :
1402/02/31
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/03/03
چكيده فارسي :
تخصيص وظيفه غيرمتمركز در يك سيستم چندعاملي موضوعي است كه علاقهمندي فزايندهاي در سالهاي اخير ايجاد كرده است. از كاربردهايي مانند همكاري ميان رباتهاي فوتباليست و رباتهاي امدادگر در مسابقات رباتيك تا كاربردهايي مثل مديريت پهپادها در امور نظامي همگي مسائلي هستند كه نياز به روشهاي سريع و غيرمتمركز را در سالهاي اخير افزايش دادهاند.
وقتي صحبت از ربات ميشود، ميبايست حسگرهايي را در نظر بگيريم كه الزاماً دقيق نيستند و دامنهي محدود دارند و همين امر محيط را از حالت كاملاً مشاهدهپذير به نيمهمشاهدهپذير تبديل ميكند. با پذيرش اين واقعيت ميبايست دشواري و هزينهي بالاتر كار با دادههاي مبهم ورودي را نيز بپذيريم.
استفاده از نگاه ذهني به ما اين فرصت را ميدهد كه يك سيستم كاملاً غيرمتمركز داشتهباشيم. پيش از اين، كليس و همكاران از رويكرد ذهني براي حل غيرمتمركز مسئله تخصيص وظيفه مكاني(SPATAP) در يك محيط كاملاً مشاهدهپذير استفاده كرده بودند [5]. هدف اين پژوهش، حل غيرمتمركز SPATAP در يك محيط نيمهمشاهدهپذير است. در مسائل SPATAP با يك محيط شبكهاي روبرو هستيم كه در هر مكان آن با احتمالي وظيفه جديد ظاهر ميشود. نگاه ذهني به معناي آن است كه يك عامل در مورد رفتار عاملهاي ديگر استنتاج كرده و عمل آنها را پيشبيني كند. دو روش عامل خودجذب و گونهاي از تابع ارزش توزيعيافته (DVF) بر اين اساس در [5] معرفي شدند. در روش پيشنهادي عامل خودجذب آنها، هر عامل خودش را تنها عامل در سيستم فرض ميكرد و به سايرين مانند نويز نگاه ميكرد يا يك توزيع يكنواخت بر روي رفتار آنها ميساخت. در اين رساله، ايده عامل خودجذب در SPATAP به محيط نيمهمشاهدهپذير توسعه داده شد. براي انجام اين كار و به منظور پيشبيني سودمندي حالت باور آتي، از الگوريتم طرحريزي مونتكارلو نيمهمشاهدهپذير (POMCP) استفاده شد. الگوريتم حاصل، عامل خودجذب در محيط نيمهمشاهدهپذير (POSA) نام گرفت. همچنين در پژوهش حاضر، تابع ارزش توزيعيافته كه پيش از اين در محيطهاي كاملاً مشاهدهپذير (بدون نياز به ارتباط) استفاده شده بود، به محيطهاي نيمهمشاهدهپذير توسعه داده شد و تابع ارزش توزيعيافته نيمهمشاهدهپذير (PODVF) نام گرفت. PODVF با استفاده از متر تشابه دو توزيع احتمال و مفهوم فاصله باتاچاريا، احتمال حضور عاملها را به دنياي پيوسته تعميم داده و با استفاده از POMCP ارزشمندي باور آتي را تقريب ميزند. نتايج شبيهسازي بيانگر دقت مناسب دو الگوريتم POSA و PODVF است، اما سرعت اجراي هر دو الگوريتم پايين است.
براي رفع مشكل كندي سرعت، اصلاحاتي در POMCP انجام شد تا آن را مناسب يك محيط چندعاملي غيرمتمركز كند. دو ايده براي انجام اين كار پيشنهاد و مورد بررسي قرار گرفت: روش اول، ساخت درخت جستجوي مونتكارلو با اعمال منفرد عامل تصميمگيرنده (عمل تكعامل) كه به آن POMCP با عمل منفرد (SPOMCP) ميگوييم. روش ديگر، ساخت درخت POMCP با عمل همه عاملها (پروفايل اعمال) است كه آن را POMCP با عمل سراسري (GPOMCP) نامگذاري كرديم. در ساخت SPOMCP، عامل با استفاده از نوعي نگاه حريصانه، تأثير عمل سايرين را در درخت جستجو به طور ضمني لحاظ ميكند.
در روش GPOMCP كه درخت جستجو به صورت ذهني و با اعمال توأم عاملها ساخته ميشود، عامل با بهينهسازي مبتني بر مختصات، ابتدا ارزش عمل انفرادي خودش و سپس ارزش عمل سايرين را مييابد و بردار عمل بهينه تقريبي را حدس ميزند. نتايج تجربي بيانگر سرعت و دقت مناسب اين دو الگوريتم است. الگوريتمهاي SPOMCP و GPOMCP از سويي قادرند به كيفيت جواب الگوريتم متمركز POMCP دست يابند و از سوي ديگر قادرند به لحاظ سرعت از آن پيشي گيرند.
چكيده انگليسي :
Decentralized task allocation in a multi-agent system is attracting attention in recent years. Applications such as the cooperation of soccer or rescue robots and UAVs controlling in military missions are some problems that increase the need for fast decentralized algorithms.
When talking about robots, we should consider that the sensors are noisy and have a limited range. These conditions turn the environment from fully observable to partially observable. By admitting this fact, we should also accept the complexity of working with ambiguous data.
Using a subjective view gives us the opportunity of having a decentralized system. Researchers utilized the subjective approach to solve the spatial task allocation problem (SPATAP) in a fully observable environment. Our goal is to solve SPATAP in a partially observable environment in a decentralized way. In an SPATAP instance, we deal with a grid where there might be some tasks in every location with a certain probability. A subjective view means each agent infers other agents' behaviors and predicts their actions. A self-absorbed agent approach and an extension of Distributed Value Function (DVF) were offered, based on a subjective view in the past. In the offered self-absorbed approach, each robot considers itself the only agent in the world and regards others as noise or uses a uniform distribution to predict others' behaviors. In this dissertation, the idea of the self-absorbed is extended to a partially observable environment. We use Partially Observable Monte-Carlo Planning (POMCP) to predict the value of the following belief and call the resulting algorithm Partially Observable Self-absorbed Agent (POSA). In this research, an extension of DVF, which was used in fully observable environments (without communication), is extended to partially observable environments and is called Partially Observable Distributed Value Function (PODVF). PODVF extends the presence probability of agents to a continuous world using a similarity measure of two distributions and Bhattacharya distance. The experimental results indicate the suitable accuracy of POSA and PODVF, but both algorithms are time-consuming.
To solve the low-speed problem, some modifications are performed in POMCP to make it suitable for a decentralized multi-agent environment. Two ideas are offered and evaluated: The first builds a search tree with single actions of the decision maker, which we call Single-action POMCP (SPOMCP). Another, called Global-action POMCP (GPOMCP), uses action profiles to make a tree. When building a SPOMCP tree, the agent encodes the effect of others' actions in the tree implicitly using a greedy approach. GPOMCP agent, which builds a subjective search tree with joint actions, utilizes a coordinate-wise optimization to estimate its single action value and the value of other agents' actions and guesses the approximate best action vector. Simulations show that SPOMCP and GPOMCP have high-quality results and fast running times. These algorithms can reach the quality of the centralized algorithm POMCP while consuming much less time per iteration.
استاد راهنما :
مازيار پالهنگ
استاد داور :
مجيد نيلي احمدآبادي , محمدحسين منشئي , حسين فلسفين