توصيفگر ها :
بهينهسازي NP-سخت , رويكرد CombOpt Zero , ارضاپذيري بولي بيشينه وزندار , مسئله مجموعه مستقل d-فاصله , مسئله مجموعه غالب , يادگيري تقويتي عميق گراف
چكيده فارسي :
مسائل بهينهسازي تركيبياتي، طيف گستردهاي از مسائل دنياي واقعي را در بر ميگيرند. تعداد زيادي از اين مسائل، NP-كامل و NP-سخت هستند. باوجود اينكه از پيدايش اين مسائل، دههها ميگذرد، اما هنوز براي طراحان الگوريتم جذابيت دارند. الگوريتمهاي كلاسيك براي حل يك مسئله بهينهسازي تركيبياتي NP -سخت، در سه دسته الگوريتمهاي دقيق، الگوريتمهاي تقريبي و الگوريتمهاي فرا ابتكاري قرار ميگيرند. اين الگوريتمها، با وجود قابليتهايي كه دارند، هركدام نقاط ضعف خاص خودشان را هم دارند. امروزه با توجه به آگاهي محققان به حيطه هوش مصنوعي و نقاط قوت ابزارهاي اين حوزه، رويكردهاي مبتني بر يادگيري ماشين رواج پيدا كردهاند. رويكردهاي يادگيري ماشين را ميتوان به سه دسته يادگيري تحت نظارت، يادگيري بدون نظارت و يادگيري تقويتي تقسيم كرد. در چند سال اخير، براي حل مسائل بهينهسازي تركيبياتي، الگوريتمهاي يادگيري تحت نظارت و يادگيري تقويتي، توجه محققان را به خود جلب كردهاند. طي چند سال اخير، الگوريتمهاي يادگيري تقويتي در حل مسائل بهينهسازي تركيبياتي به نتايج اميدواركنندهاي دست يافتهاند. رويكرد CombOpt Zero، يكي از اين رويكردهاست. در سال 2019 ميلادي، ابه و همكارانش، اين رويكرد را براي حل تعدادي از مسائل بهينهسازي تركيبياتي NP-سخت گرافي، پيشنهاد كردند. اين رويكرد، تركيبي از يادگيري تقويتي و تعبيه گراف است. نويسندگان، اين رويكرد را از AlphaGo Zero كه يك چارچوب موفق با كاركردي فوقبشري براي بازي Go است، الهام گرفتهاند. همچنين، اين نويسندگان، از رويكرد پيشنهاديشان براي حل مسئله پوشش رأسي كمينه، مسئله برش بيشينه، مسئله خوشه بيشينه و مسئله مجموعه مستقل بيشينه استفاده كردهاند. شبيهسازيهايشان نشان ميدهند كه رويكرد CombOpt Zero، يك رويكرد اميدواركننده براي اين مسائل بوده است. در اين پاياننامه، رويكرد CombOpt Zero را بررسي ميكنيم. همچنين از اين رويكرد، براي حل چند مسائل NP-سخت ديگر كه عبارتند از: مسئله مجموعه مستقل d-فاصله، مسئله ارضاپذيري بولي بيشينه وزندار و مسئله مجموعه غالب كمينه، بهره ميگيريم. براي ارزيابي ميزان مطلوبيت اين رويكرد، براي هر سه مسئله، جوابهاي حاصل از حل اين مسائل با استفاده از رويكرد CombOpt Zero را با جوابهاي دقيق حاصل از بكارگيري روش برنامهريزي خطي عدد صحيح مقايسه ميكنيم. همچنين، جواب حاصل از حل رويكرد CombOpt Zero براي مسئله ارضاپذيري بولي بيشينه وزندار، را با جواب دو رويكرد جستوجوي محلي معروف به نامهاي IRoTS و Novelty++ و براي مسئله MDS با يك رويكرد حريصانه نيز مقايسه ميكنيم. خواهيم ديد كه رويكرد CombOpt Zero براي هر سه مسئله جوابهايي نزديك به جواب بهينه را بر ميگرداند. همچنين، نتايج نشان ميدهند كه رويكرد CombOpt Zero براي مسئله ارضاپذيري بولي بيشينه وزندار در مقايسه با رويكردهاي جستوجوي محلي IRoTS و Novelty++، جوابهاي قابل قبولي ارائه ميدهد. علاوه بر اين، اين رويكرد براي نمونههاي چالش برانگيز مسئله ارضاپذيري بولي بيشينه وزندار كه حل ILP آنها زمان بر است، نتايج خوبي و نزديك به بهينه را در زمان بسيار كمتري ارائه ميكند. همچنين، براي مسئله MDS درصد خطاي رويكرد حريصانه از رويكرد CombOpt Zero، حدوداً 30 درصد بيشتر است.
چكيده انگليسي :
Combinatorial optimization problems cover a wide range of real-world problems. A large number of these problems, called NP-hard problems, are computationally hard to deal with. Although these problems have been proposed for decades, they are still attractive to alGorithm designers. Traditional approaches for solving an NP-hard combinatorial optimization problem are classified into exact algorithms, approximate algorithms, and meta-heuristic algorithms. Despite the capabilities of these approaches, each of them has its weaknesses. Due to the weaknesses of the traditional methods and the end of research in artificial intelligence, machine learning approaches have become popular. Machine learning approaches can be divided into three cateGories: supervised, unsupervised, and reinforcement learning. In recent years, to solve combinatorial optimization problems, supervised learning algorithms and reinforcement learning have attracted the attention of researchers. Due to their focus on data distribution, Supervised learning algorithms are ineffective for interactive problems. On the other hand, reinforcement learning algorithms do not have the weakness of supervised algorithms. During the last few years, reinforcement learning algorithms have achieved promising results in solving combinatorial optimization problems. CombOpt Zero is one such approach. Abe and his colleagues have proposed this approach for solving several NP-hard combinatorial optimization problems on graphs in 2019. This approach is a combination of reinforcement learning and graph embedding. The authors inspired this approach from the AlphaGo Zero approach, a superhumanly successful framework for the game Go. The authors have used this approach to solve the minimum vertex cover problem, the maximum cut problem, the maximum clique problem and the maximum independent set problem. Simulations show that the CombOpt Zero approach is promising for the investigated problems. In this thesis, the CombOpt Zero approach is investigated. Moreover, this approach has been used to solve new combinatorial optimization problems, which are: the d-distance independent set problem, weighted maximum Boolean satisfiability problem and minimum dominating set problem. To evaluate the results, the solutions of the CombOpt Zero approach are compared with the exact solution obtained from integer linear programming. The results obtained using this approach are very close to the optimal solution. Also, we compare the solution of the CombOpt Zero approach for the weighted maximum boolean satisfiability problem with the solution of two local search approaches known as IRoTS and Novelty++ and the MDS problem with a greedy approach. We will see that the CombOpt Zero approach returns solutions close to the optimal solution for all three problems. Also, the results show that the CombOpt Zero approach provides acceptable solutions for the weighted maximum Boolean satisfiability problem compared to the IRoTS and Novelty++ local search approaches. In addition, this approach provides excellent and near-optimal results in much less time for challenging examples of weighted maximum Boolean satisfiability problems whose ILP solution is time-consuming. Also, for the MDS problem, the error percentage of the greedy approach is about 30% higher than the CombOpt Zero approach.