توصيفگر ها :
برنامه ريزي مسير , سيستم تك عامله , سيستم چند عامله , يادگيري تقويتي عميق , شبكه هاي كانولوشني , شبكه هاي كاملا متصل
چكيده فارسي :
برنامه¬ريزي مسير به صورت حركت عامل از مكان فعلي به سمت هدف تعريف مي¬شود. يك برنامه¬ريزي حركتي قابل قبول بايد بتواند برخورد بين عامل و مانع¬ها موجود در محيط را تشخيص دهد، تا عامل بتواند مسير خود را تغيير دهد يا قبل از وقوع برخورد متوقف شود. يادگيري تقويتي در زمينه رباتيك و برنامه¬ريزي مسير سابقه طولاني دارد. اما امروزه با بهبود قابل توجه قدرت محاسباتي و ظرفيت ذخيره¬سازي، يادگيري تقويتي عميق به طور گسترده¬ در هوش مصنوعي مورد استفاده قرار گرفته است. به¬كارگيري يادگيري عميق در مسائل مربوط به فضاي حالت با ابعاد بالا كاربرد زيادي دارد. در برنامه¬ريزي مسير، روش¬ها¬ي يادگيري تقويتي عميق به دليل عدم نياز به استفاده از نقشه قبلي، بسيار مفيد هستند و برا¬ي اجتناب از برخورد با مانع¬ها به كار مي-روند. اين بدان معناست كه با يادگيري عميق، يادگيري تقويتي قادر به حل وظايف پيچيده¬تر با دانش قبلي كم¬تر است. هدف از اين پژوهش، برنامه¬ريزي مسير عامل در محيط¬ها¬ي گسسته ديناميكي و استاتيكي مبتني بر الگوريتم¬ها¬ي يادگيري تقويتي عميق است. به اين منظور روش¬ها¬ي يادگيري تقويتي عميق تحت عنوان¬ يادگيري عميق Q و تركيب آن با مكانيزم آثار شايستگي و هم¬چنين الگوريتم¬ها¬ي مزيت بازيگر نقاد و مزيت نا¬¬هم¬زمان بازيگر نقاد پيشنهاد مي¬شوند. به اين منظور، در اين تحقيق حالات مختلفي از مانع و هدف در حالت تك¬عامله و چند¬عامله در نظر گرفته مي¬شوند. در ابتدا حالت استاتيكي براي برنامه¬ريزي مسير سيستم تك عامل بررسي مي¬شود و سپس الگوريتم¬ها¬ي پيشنهادي برنامه¬ريزي مسير تك عامل براي حالت¬ها¬ي مانع ثابت و هدف متحرك، مانع متحرك و هدف ثابت و هم¬چنين هدف و مانع متحرك پيشنهاد مي¬شود. هم¬چنين براي سيستم¬ها¬ي چند¬عامله برنامه¬ريزي مسير سيستم در حالت مانع و هدف ثابت با استفاده از روش يادگيري عميق Q پيشنهاد مي¬شود. در اين پژوهش، به دليل عدم آگاهي عامل از نقشه محيط از روش¬ها¬ي يادگيري تقويتي عميق بدون مدل به همراه شبكه¬ها¬ي عميق كاملاً متصل و شبكه¬ها¬ي كانولوشني به كار مي¬رود. الگوريتم¬ها¬ي يادگيري تقويتي عميق از آزمون و خطا استفاده مي¬كنند و براي پيش¬بيني نتيجه به داده¬هاي فعلي نياز ندارند. در عوض، از اشتباهات درس مي گيرند تا پاداش را به مقدار بيشينه برسانند و احتمال تكرار اشتباهات گذشته را كاهش دهند. نتايج شبيه¬سازي، عملكرد مطلوب روش¬ها¬ي پيشنهادي در حالات مختلف برنامه¬ريزي مسير را نشان مي¬دهند. هم¬چنين نشان داده مي¬شود كه با استفاده از روش يادگيري عميق Q با مكانيزم آثار شايستگي سرعت همگرايي به طور قابل ملاحظه¬اي افزايش مي¬يابد.
چكيده انگليسي :
Path planning is defined as the movement of the agent from the current location to the goal. An acceptable motion planning should be able to detect the collision between the agent and the obstacles in the environment, so that the agent can change its path or stop before the collision. Reinforcement learning has a long history in the field of robotics and path planning. But today, with the significant improvement of computing power and storage capacity, deep reinforcement learning has been widely used in artificial intelligence. The use of deep learning is very useful in high-dimensional state space problems. In path planning, deep reinforcement learning methods are very useful because they do not need to use a previous map and are used to avoid obstacles. This means that with deep learning, reinforcement learning is able to solve more complex tasks with less prior knowledge. The purpose of this research is to plan the path of the agent in discrete dynamic and static environments based on deep reinforcement learning algorithms. For this purpose, deep reinforcement learning methods under the title of Q deep learning and its combination with the mechanism of eligibility trace, as well as algorithms of advantage actor critic and asynchronous advantage actor critic are proposed. For this purpose, in this research, different situations of obstacle and goal are considered in single-agent and multi agent mode. First, the static mode for single-agent system path planning is examined, and then the proposed single-agent path planning algorithms for the states of fixed obstacle and moving target, moving obstacle and fixed target, as well as target and obstacle are Moving is recommended. Also, for multi-agent systems, it is suggested to plan the path of the system in the obstacle and fixed target mode using the Q deep learning method. In this research, due to the agent's lack of awareness of the environment map, model-free deep reinforcement learning methods are used along with fully connected deep networks and convolutional networks. Deep reinforcement learning algorithms use trial and error and do not need current data to predict the result. Instead, they learn from mistakes to maximize rewards and reduce the likelihood of repeating past mistakes. The simulation results show the optimal performance of the proposed methods in different situations of path planning. It is also shown that by using the Q deep learning method with the mechanism of eligibility traces, the speed of convergence increases significantly.