يادگيري چندعاملي با نگاه ذهني در محيط‌هاي نيمه‌مشاهده‌پذير با وظايف مكاني

شماره مدرك :

18528

شماره راهنما :

2059 دكتري

پديد آورنده :

اميني، سارا

عنوان :

يادگيري چندعاملي با نگاه ذهني در محيط‌هاي نيمه‌مشاهده‌پذير با وظايف مكاني

مقطع تحصيلي :

دكتري

گرايش تحصيلي :

هوش مصنوعي و رباتيك

محل تحصيل :

اصفهان : دانشگاه صنعتي اصفهان

سال دفاع :

1401

صفحه شمار :

سيزده، 112ص. : مصور، جدول، نمودار

توصيفگر ها :

تخصيص وظيفه غيرمتمركز , يادگيري چندعاملي , سيستم چندرباتي , دنياي نيمه مشاهده پذير , كار تيمي , طرح ريزي مونت كارلو

تاريخ ورود اطلاعات :

1402/02/31

كتابنامه :

كتابنامه

رشته تحصيلي :

مهندسي كامپيوتر

دانشكده :

مهندسي برق و كامپيوتر

تاريخ ويرايش اطلاعات :

1402/03/03

كد ايرانداك :

2929382

چكيده فارسي :

تخصيص وظيفه غيرمتمركز در يك سيستم چندعاملي موضوعي است كه علاقه‌مندي فزاينده‌اي در سال‌هاي اخير ايجاد كرده است. از كاربردهايي مانند همكاري ميان ربات‌هاي فوتباليست و ربات‌هاي امدادگر در مسابقات رباتيك تا كاربردهايي مثل مديريت پهپادها در امور نظامي همگي مسائلي هستند كه نياز به روش‌هاي سريع و غيرمتمركز را در سال‌هاي اخير افزايش داده‌اند. وقتي صحبت از ربات مي‌شود، مي‌بايست حسگرهايي را در نظر بگيريم كه الزاماً دقيق نيستند و دامنه‌ي محدود دارند و همين امر محيط را از حالت كاملاً مشاهده‌پذير به نيمه‌مشاهده‌پذير تبديل مي‌كند. با پذيرش اين واقعيت مي‌بايست دشواري و هزينه‌ي بالاتر كار با داده‌هاي مبهم ورودي را نيز بپذيريم. استفاده از نگاه ذهني به ما اين فرصت را مي‌دهد كه يك سيستم كاملاً غيرمتمركز داشته‌باشيم. پيش از اين، كليس و همكاران از رويكرد ذهني براي حل غيرمتمركز مسئله تخصيص وظيفه مكاني(SPATAP) در يك محيط كاملاً مشاهده‌پذير استفاده كرده بودند [5]. هدف اين پژوهش، حل غير‌متمركز SPATAP در يك محيط نيمه‌مشاهده‌پذير است. در مسائل SPATAP با يك محيط شبكه‌اي روبرو هستيم كه در هر مكان آن با احتمالي وظيفه جديد ظاهر مي‌شود. نگاه ذهني به معناي آن است كه يك عامل در مورد رفتار عامل‌هاي ديگر استنتاج كرده و عمل آنها را پيش‌بيني كند. دو روش عامل خودجذب و گونه‌اي از تابع ارزش توزيع‌يافته (DVF) بر اين اساس در [5] معرفي شدند. در روش پيشنهادي عامل خودجذب آنها، هر عامل خودش را تنها عامل در سيستم فرض مي‌كرد و به سايرين مانند نويز نگاه مي‌كرد يا يك توزيع يكنواخت بر روي رفتار آنها مي‌ساخت. در اين رساله، ايده عامل خودجذب در SPATAP به محيط نيمه‌مشاهده‌پذير توسعه داده شد. براي انجام اين كار و به منظور پيش‌بيني سودمندي حالت باور آتي، از الگوريتم طرح‌ريزي مونت‌كارلو نيمه‌مشاهده‌پذير (POMCP) استفاده شد. الگوريتم حاصل، عامل خودجذب در محيط نيمه‌مشاهده‌پذير (POSA) نام گرفت. هم‌چنين در پژوهش حاضر، تابع ارزش توزيع‌يافته كه پيش از اين در محيط‌هاي كاملاً مشاهده‌پذير (بدون نياز به ارتباط) استفاده شده بود، به محيط‌هاي نيمه‌مشاهده‌پذير توسعه داده شد و تابع ارزش توزيع‌يافته نيمه‌مشاهده‌پذير (PODVF) نام گرفت. PODVF با استفاده از متر تشابه دو توزيع احتمال و مفهوم فاصله باتاچاريا، احتمال حضور عامل‌ها را به دنياي پيوسته تعميم داده و با استفاده از POMCP ارزشمندي باور آتي را تقريب مي‌زند. نتايج شبيه‌سازي بيانگر دقت مناسب دو الگوريتم POSA و PODVF است، اما سرعت اجراي هر دو الگوريتم پايين است. براي رفع مشكل كندي سرعت، اصلاحاتي در POMCP انجام شد تا آن را مناسب يك محيط چندعاملي غيرمتمركز كند. دو ايده براي انجام اين كار پيشنهاد و مورد بررسي قرار گرفت: روش اول، ساخت درخت جستجوي مونت‌كارلو با اعمال منفرد عامل تصميم‌گيرنده (عمل تك‌عامل) كه به آن POMCP با عمل منفرد (SPOMCP) مي‌گوييم. روش ديگر، ساخت درخت POMCP با عمل همه عامل‌ها (پروفايل اعمال) است كه آن را POMCP با عمل سراسري (GPOMCP) نامگذاري كرديم. در ساخت SPOMCP، عامل با استفاده از نوعي نگاه حريصانه، تأثير عمل سايرين را در درخت جستجو به طور ضمني لحاظ مي‌كند. در روش GPOMCP كه درخت جستجو به صورت ذهني و با اعمال توأم عامل‌ها ساخته مي‌شود، عامل با بهينه‌سازي مبتني بر مختصات، ابتدا ارزش عمل انفرادي خودش و سپس ارزش عمل سايرين را مي‌يابد و بردار عمل بهينه تقريبي را حدس مي‌زند. نتايج تجربي بيانگر سرعت و دقت مناسب اين دو الگوريتم است. الگوريتم‌هاي SPOMCP و GPOMCP از سويي قادرند به كيفيت جواب الگوريتم متمركز POMCP دست يابند و از سوي ديگر قادرند به لحاظ سرعت از آن پيشي گيرند.

چكيده انگليسي :

Decentralized task allocation in a multi-agent system is attracting attention in recent years. Applications such as the cooperation of soccer or rescue robots and UAVs controlling in military missions are some problems that increase the need for fast decentralized algorithms. When talking about robots, we should consider that the sensors are noisy and have a limited range. These conditions turn the environment from fully observable to partially observable. By admitting this fact, we should also accept the complexity of working with ambiguous data. Using a subjective view gives us the opportunity of having a decentralized system. Researchers utilized the subjective approach to solve the spatial task allocation problem (SPATAP) in a fully observable environment. Our goal is to solve SPATAP in a partially observable environment in a decentralized way. In an SPATAP instance, we deal with a grid where there might be some tasks in every location with a certain probability. A subjective view means each agent infers other agents' behaviors and predicts their actions. A self-absorbed agent approach and an extension of Distributed Value Function (DVF) were offered, based on a subjective view in the past. In the offered self-absorbed approach, each robot considers itself the only agent in the world and regards others as noise or uses a uniform distribution to predict others' behaviors. In this dissertation, the idea of the self-absorbed is extended to a partially observable environment. We use Partially Observable Monte-Carlo Planning (POMCP) to predict the value of the following belief and call the resulting algorithm Partially Observable Self-absorbed Agent (POSA). In this research, an extension of DVF, which was used in fully observable environments (without communication), is extended to partially observable environments and is called Partially Observable Distributed Value Function (PODVF). PODVF extends the presence probability of agents to a continuous world using a similarity measure of two distributions and Bhattacharya distance. The experimental results indicate the suitable accuracy of POSA and PODVF, but both algorithms are time-consuming. To solve the low-speed problem, some modifications are performed in POMCP to make it suitable for a decentralized multi-agent environment. Two ideas are offered and eva‎luated: The first builds a search tree with single actions of the decision maker, which we call Single-action POMCP (SPOMCP). Another, called Global-action POMCP (GPOMCP), uses action profiles to make a tree. When building a SPOMCP tree, the agent encodes the effect of others' actions in the tree implicitly using a greedy approach. GPOMCP agent, which builds a subjective search tree with joint actions, utilizes a coordinate-wise optimization to estimate its single action value and the value of other agents' actions and guesses the approximate best action vector. Simulations show that SPOMCP and GPOMCP have high-quality results and fast running times. These algorithms can reach the quality of the centralized algorithm POMCP while consuming much less time per iteration.

استاد راهنما :

مازيار پالهنگ

استاد مشاور :

ناصر مزيني

استاد داور :

مجيد نيلي احمدآبادي , محمدحسين منشئي , حسين فلسفين

لينک به اين مدرک :

https://library.iut.ac.ir/dL/search/default.aspx?Term=18528&Field=0&DTC=107

کلیه حقوق این اثر برای شرکت مهندسی ارتباطات پيام مشرق محفوظ می باشد