توصيفگر ها :
سيستم هاي چندعاملي , كنترل مشاركتي , پوشش محيط , برنامه ريزي مسير , يادگيري تقويتي , يادگيري تفاوت زماني
چكيده فارسي :
با توسعه سريع رايانه، تكنولوژي و ارتباطات، موضوع برنامهريزي مسير براي پوشش محيط در سيستمهاي چندعاملي به موضوع تحقيقات گسترده تبديل شدهاست و داراي ارزش كاربردي مهندسي بسيار مهمي در زمينههاي مختلف از جمله تحقيقات علمي، حمل و نقل، اكتشاف و ... ميباشد. برنامهريزي مسير براي پوشش محيط در بسياري از كاربردها از قبيل جستجو و نجات، كشاورزي، تحويل بسته، بازرسي و ... به طور فزايندهاي مورد استفاده قرار ميگيرد. استفاده از چندعامل براي پوشش محيط مزاياي متعددي را فراهم ميكند و با توجه به اينكه عاملها شارژ باتري محدودي دارند، همكاري يك تيم براي فراهم آوردن پوشش موثر در يك فضاي كاري، ميتواند در بهينه كردن مصرف باتري موثر واقع شود. ازجمله الگوريتمهاي يادگيري متداول ميتوان به الگوريتمهاي يادگيري Q و SARSA اشاره نمود. با استفاده از اين الگوريتمها ميتوان مسئله برنامهريزي مسير براي پوشش محيط و هدايت تك عامل را حل نمود. با توجه به اينكه الگوريتم يادگيري SARSA سرعت همگرايي بيشتري نسبت به الگوريتم يادگيري Q دارد و داراي اثبات همگرايي است، ميخواهيم از اين الگوريتم نيز براي حل مسئله برنامهريزي مسير استفاده كنيم. در اين پاياننامه ابتدا به بررسي مسئله هدايت تك عامل در محيط گسسته با درنظر گرفتن موانع ميپردازيم. هدف ما در اين مسئله شروع از يك نقطه به عنوان مبدا و رسيدن به نقطه مقصد، بدون برخورد با موانع و پيمودن كوتاهترين مسير است. براي رسيدن به اين هدف با در نظرگرفتن يك عامل و بهرهگيري از الگوريتمهاي يادگيري Q و SARSA مسئله موردنظر حل ميشود. سپس مسئله برنامهريزي مسير را در حالتي كه اغتشاش باد وجود داشته باشد، بررسي ميكنيم. يكي از مشكلاتي كه در الگوريتم يادگيري Q مطرح ميگردد، كاهش سرعت همگرايي الگوريتم يادگيري در نرخهاي يادگيري كوچك است. در ادامه با استفاده از راه حل پيشنهادي سرعت همگرايي الگوريتم يادگيري Q را با راه حل پيشنهادي مورد بررسي قرار ميدهيم. همچنين با استفاده از اين راه حل، ميانگين پاداش دريافتي در هر دو الگوريتم يادگيري را با يكديگر مقايسه ميكنيم و با انجام شبيهسازي در محيطهاي مختلف به بررسي اين مطلب خواهيم پرداخت و راه حل پيشنهادي را ارزيابي ميكنيم. در پايان به بررسي مسئله پوشش محيط توسط دو عامل در محيط گسسته ميپردازيم و اين مسئله را در حالتي كه هر دوعامل با يكديگر در ارتباط بوده و به صورت همزمان محيط را پوشش دهند، درنظر ميگيريم و همانند مسئله هدايت تك عامل، با بهرهگيري از الگوريتمهاي يادگيري Q و SARSA به حل مسئله ميپردازيم. در اين حالت نيز عملكرد دو الگوريتم يادگيري را در نرخهاي يادگيري متفاوت مقايسه ميكنيم و سرعت همگرايي الگوريتم يادگيري Qرا با راه حل پيشنهادي بهوسيله شبيهسازي در محيطهاي مختلف بررسي ميكنيم. سپس در حالتي كه اغتشاش باد و مانع نيز در مسئله وجود داشته باشند به بررسي مسئله ميپردازيم و سرعت همگرايي الگوريتمهاي يادگيري SARSA و Q را با يكديگر مقايسه ميكنيم. همچنين در برخي موارد از جمله وجود اغتشاش باد و مانع در مسئله، الگوريتم يادگيري Q و SARSA را از نظر ميانگين پاداشهاي دريافتي با يكديگر مقايسه ميكنيم و مسئله را در حالتي كه در محيط مانع وجود داشته و اشتراك تجربه بين عاملها داشته باشيم، مورد بررسي قرار ميدهيم و به مقايسه سرعت همگرايي الگوريتمها و ميانگين پاداش دريافتي در حالتي كه عاملها با يكديگر اشتراك تجربه داشته باشند، ميپردازيم.
چكيده انگليسي :
With the rapid development of computers, technology and communications, the subject of path planning to cover the environment in multi-agent systems has become the subject of extensive research and has a very important engineering applied value in various fields such as scientific research, transportation, exploration and so on. Path planning is increasingly used to cover the environment in many applications such as search and rescue, agriculture, package delivery, inspection, and so on. Using multi agents to cover the environment offers several benefits, and given that agents have limited battery charge, teamwork to provide effective coverage in a workspace can be effective in optimizing battery consumption. Common learning algorithms include Q and SARSA learning algorithms. Using these algorithms, the path planning problem can be solved to cover the environment and direct single-agent guidance. Given that the SARSA learning algorithm does not act greedily in its update rule, but updates the algorithm based on the search it makes in the environment and the choice of action taken under the policy, we want to use this algorithm to solve the path planning problem and function. Compare it with the Q learning algorithm in different situations. In this dissertation, we first examine the problem of single-agent guidance in a discrete environment by considering obstacles. Our goal in this issue is to start from a point as the origin and reach the destination point, without encountering obstacles and following the shortest path. To achieve this goal, the problem is solved by considering an agent and using Q and SARSA learning algorithms. We then examine the issue of path planning in the event of wind turbulence. One of the problems in learning Q algorithm is slowing down the convergence of learning algorithm at small learning rates. In the following, using the proposed solution, we examine the convergence speed of the Q learning algorithm with the proposed solution. Also, using this solution, we compare the average reward received in both learning algorithms. Finally, we examine the problem of covering the environment by two agents in a discrete environment, and consider this problem when both agents are related to each other and cover the environment at the same time, and like the single-agent guidance problem, using algorithms Learning Q and SARSA Solve the problem. In this case, we compare the performance of the two learning algorithms at different learning rates and examine the convergence speed of the Q learning algorithm with the proposed solution. Then, in the case of wind turbulence and obstruction, we examine the problem and compare the convergence speed of the SARSA and Q learning algorithms. Also, in some cases, such as wind turbulence and obstacle in the problem, we compare the learning algorithm Q and SARSA in terms of the average rewards received and examine the problem in a situation where there is a barrier and share experience between agents. We compare and contrast the convergence speed of algorithms and the average reward received when agents share experience with each other.