برنامه ريزي مسير براي هدايت تك عامل و پوشش محيط توسط دوعامل در محيط گسسته با استفاده از يادگيري تقويتي

شماره مدرك :

17404

شماره راهنما :

15237

پديد آورنده :

نظام زاده اژيه، عليرضا

عنوان :

برنامه ريزي مسير براي هدايت تك عامل و پوشش محيط توسط دوعامل در محيط گسسته با استفاده از يادگيري تقويتي

مقطع تحصيلي :

كارشناسي ارشد

گرايش تحصيلي :

كنترل

محل تحصيل :

اصفهان : دانشگاه صنعتي اصفهان

سال دفاع :

1400

صفحه شمار :

يازده، 74ص. :مصور، جدول، نمودار

استاد راهنما :

مرضيه كمالي

استاد مشاور :

حامد جلالي، مجدالدين نجفي

توصيفگر ها :

سيستم هاي چندعاملي , كنترل مشاركتي , پوشش محيط , برنامه ريزي مسير , يادگيري تقويتي , يادگيري تفاوت زماني

استاد داور :

فريد شيخ الاسلام، مريم ذكري

تاريخ ورود اطلاعات :

1401/01/16

كتابنامه :

كتابنامه

رشته تحصيلي :

مهندسي برق

دانشكده :

مهندسي برق و كامپيوتر

تاريخ ويرايش اطلاعات :

1401/01/16

كد ايرانداك :

2819394

چكيده فارسي :

با توسعه سريع رايانه، تكنولوژي و ارتباطات، موضوع برنامه‌ريزي مسير براي پوشش محيط در سيستم‌هاي چندعاملي به موضوع تحقيقات گسترده تبديل شده‌است و داراي ارزش كاربردي مهندسي بسيار مهمي در زمينه‌هاي مختلف از جمله تحقيقات علمي، حمل و نقل، اكتشاف و ... مي‌باشد. برنامه‌ريزي مسير براي پوشش محيط در بسياري از كاربردها از قبيل جستجو و نجات، كشاورزي، تحويل بسته، بازرسي و ... به طور فزاينده‌اي مورد استفاده قرار مي‌گيرد. استفاده از چندعامل براي پوشش محيط مزاياي متعددي را فراهم مي‌كند و با توجه به اينكه عامل‌ها شارژ باتري محدودي دارند، هم‌كاري يك تيم براي فراهم آوردن پوشش موثر در يك فضاي كاري، مي‌تواند در بهينه كردن مصرف باتري موثر واقع شود. ازجمله الگوريتم‌هاي يادگيري متداول مي‌توان به الگوريتم‌هاي يادگيري Q و SARSA اشاره نمود. با استفاده از اين الگوريتم‌ها مي‌توان مسئله برنامه‌ريزي مسير براي پوشش محيط و هدايت تك عامل را حل نمود. با توجه به اينكه الگوريتم يادگيري SARSA سرعت همگرايي بيشتري نسبت به الگوريتم يادگيري Q دارد و داراي اثبات همگرايي است، ميخواهيم از اين الگوريتم نيز براي حل مسئله برنامه‌ريزي مسير استفاده كنيم. در اين پايان‌نامه ابتدا به بررسي مسئله هدايت تك عامل در محيط گسسته با درنظر گرفتن موانع مي‌پردازيم. هدف ما در اين مسئله شروع از يك نقطه به عنوان مبدا و رسيدن به نقطه مقصد، بدون برخورد با موانع و پيمودن كوتاه‌ترين مسير است. براي رسيدن به اين هدف با در نظرگرفتن يك عامل و بهره‌گيري از الگوريتم‌هاي يادگيري Q و SARSA مسئله موردنظر حل مي‌شود. سپس مسئله برنامه‌ريزي مسير را در حالتي كه اغتشاش باد وجود داشته باشد، بررسي مي‌كنيم. يكي از مشكلاتي كه در الگوريتم‌ يادگيري Q مطرح مي‌گردد، كاهش سرعت همگرايي الگوريتم يادگيري در نرخ‌هاي يادگيري كوچك است. در ادامه با استفاده از راه حل پيشنهادي سرعت همگرايي الگوريتم يادگيري Q را با راه حل پيشنهادي مورد بررسي قرار مي‌دهيم. همچنين با استفاده از اين راه حل، ميانگين پاداش دريافتي در هر دو الگوريتم يادگيري را با يكديگر مقايسه مي‌كنيم و با انجام شبيه‌سازي‌ در محيط‌هاي مختلف به بررسي اين مطلب خواهيم پرداخت و راه حل پيشنهادي را ارزيابي مي‌كنيم. در پايان به بررسي مسئله پوشش محيط توسط دو عامل در محيط گسسته مي‌پردازيم و اين مسئله را در حالتي كه هر دوعامل با يكديگر در ارتباط بوده و به صورت همزمان محيط را پوشش دهند، درنظر مي‌گيريم و همانند مسئله هدايت تك عامل، با بهره‌گيري از الگوريتم‌هاي يادگيري Q و SARSA به حل مسئله مي‌پردازيم. در اين حالت نيز عملكرد دو الگوريتم يادگيري را در نرخ‌هاي يادگيري متفاوت مقايسه مي‌كنيم و سرعت همگرايي الگوريتم يادگيري ‌ Qرا با راه حل پيشنهادي به‌وسيله شبيه‌‌سازي در محيط‌هاي مختلف بررسي مي‌كنيم. سپس در حالتي كه اغتشاش باد و مانع نيز در مسئله وجود داشته باشند به بررسي مسئله مي‌پردازيم و سرعت همگرايي الگوريتم‌هاي يادگيري SARSA و Q را با يكديگر مقايسه مي‌كنيم. همچنين در برخي موارد از جمله وجود اغتشاش باد و مانع در مسئله، الگوريتم يادگيري Q و SARSA را از نظر ميانگين پاداش‌هاي دريافتي با يكديگر مقايسه مي‌كنيم و مسئله را در حالتي كه در محيط مانع وجود داشته و اشتراك تجربه بين عامل‌ها داشته باشيم، مورد بررسي قرار مي‌دهيم و به مقايسه سرعت همگرايي الگوريتم‌ها و ميانگين پاداش دريافتي در حالتي كه عامل‌ها با يكديگر اشتراك تجربه داشته باشند، مي‌پردازيم.

چكيده انگليسي :

With the rapid development of computers, technology and communications, the subject of path planning to cover the environment in multi-agent systems has become the subject of extensive research and has a very important engineering applied value in various fields such as scientific research, transportation, exploration and so on. Path planning is increasingly used to cover the environment in many applications such as search and rescue, agriculture, package delivery, inspection, and so on. Using multi agents to cover the environment offers several benefits, and given that agents have limited battery charge, teamwork to provide effective coverage in a workspace can be effective in optimizing battery consumption. Common learning algorithms include Q and SARSA learning algorithms. Using these algorithms, the path planning problem can be solved to cover the environment and direct single-agent guidance. Given that the SARSA learning algorithm does not act greedily in its update rule, but updates the algorithm based on the search it makes in the environment and the choice of action taken under the policy, we want to use this algorithm to solve the path planning problem and function. Compare it with the Q learning algorithm in different situations. In this dissertation, we first examine the problem of single-agent guidance in a discrete environment by considering obstacles. Our goal in this issue is to start from a point as the origin and reach the destination point, without encountering obstacles and following the shortest path. To achieve this goal, the problem is solved by considering an agent and using Q and SARSA learning algorithms. We then examine the issue of path planning in the event of wind turbulence. One of the problems in learning Q algorithm is slowing down the convergence of learning algorithm at small learning rates. In the following, using the proposed solution, we examine the convergence speed of the Q learning algorithm with the proposed solution. Also, using this solution, we compare the average reward received in both learning algorithms. Finally, we examine the problem of covering the environment by two agents in a discrete environment, and consider this problem when both agents are related to each other and cover the environment at the same time, and like the single-agent guidance problem, using algorithms Learning Q and SARSA Solve the problem. In this case, we compare the performance of the two learning algorithms at different learning rates and examine the convergence speed of the Q learning algorithm with the proposed solution. Then, in the case of wind turbulence and obstruction, we examine the problem and compare the convergence speed of the SARSA and Q learning algorithms. Also, in some cases, such as wind turbulence and obstacle in the problem, we compare the learning algorithm Q and SARSA in terms of the average rewards received and examine the problem in a situation where there is a barrier and share experience between agents. We compare and contrast the convergence speed of algorithms and the average reward received when agents share experience with each other.

استاد راهنما :

مرضيه كمالي

استاد مشاور :

حامد جلالي، مجدالدين نجفي

استاد داور :

فريد شيخ الاسلام، مريم ذكري

لينک به اين مدرک :

https://library.iut.ac.ir/dL/search/default.aspx?Term=17404&Field=0&DTC=107

کلیه حقوق این اثر برای شرکت مهندسی ارتباطات پيام مشرق محفوظ می باشد