توصيفگر ها :
تقطير دانش , پيش بيني ترافيك , شبكه هاي عصبي گرافي فضايي - زماني , هرس شبكه هاي عصبي
چكيده فارسي :
مسئله پيشبيني ترافيك، از نظر ارائه راهحلهايي در جهت كاهش زمان حمل و نقل، مورد توجه فراوان قرار گرفته است. براي وابستگي شرايط ترافيك به زمان، نياز به روشي داريم كه در كوتاهترين زمان ممكن قادر به پيشبيني ترافيك باشد. دادههاي ترافيكي را ميتوان به صورت گرافهايي در واحد زمان مدل كرد. در اين پاياننامه، ما دو راهكار در جهت بهبود زمان اجراي شبكههاي عصبي گرافي براي پيشبيني ترافيك مطرح ميكنيم. در ابتدا با استفاده از تقطير دانش كه هدف آن كاهش زمان اجراي شبكههاي عصبي است، تابع هزينهاي معرفي ميكنيم كه بتواند با استفاده از دادههاي تقطير شده از يك شبكه پيچيده، شبكهاي با تعداد پارامتر كمتر را به نحوي آموزش دهد كه دقت آن نزديك به شبكهٔ پيچيده باقي بماند. در ادامه الگوريتمي معرفي ميكنيم كه با استفاده از اين تابع هزينه، بتواند علاوه بر هرس و حذف نورونهاي كم اهميت در يك شبكه پيچيده (معلم)، بطور همزمان شبكهاي را بدست آورد كه با استفاده از دادههاي تقطير شده از شبكهٔ معلم، به نحوي آموزش دادهشود كه دقت شبكه هرسشده (دانشآموز) نزديك به دقت شبكهٔ معلم باقي بماند و در اين حال تعداد پارامترهاي آن بسيار كمتر است. دو راهكار مطرح شده مزاياي زير را نسبت به روشهاي قبلي دارد. رويكردي جديد در آموزش شبكه دانشآموز با استفاده از تقطير همبستگيهاي فضايي-زماني از شبكه معلم در جهت يادگيري الگوهاي پيچيده فضايي و زماني درك شده توسط شبكه معلم. تشخيص دادههاي پرت در مجموعه دادهآموزشي و جايگزيني آنها با پيشبيني شبكه معلم. الگوريتم هرسي كه از يك سو به تعيين ساختار شبكهٔ دانشآموز با روش حذف نورونهاي كم اهميت شبكهٔ معلم ميپردازد و از سوي ديگر، بطور همزمان شبكهٔ حاصل از هر مرحله هرس را با استفاده از تقطير دانش آموزش دهد. در انتها تابع هزينه و الگوريتم پيشنهادي خود را بر روي دو مجموعه داده PeMSD7 و PeMSD8 آزمايش ميكنيم. نتايج نشان ميدهند كه هر كدام از اين دو راهكار, نسبت به روش هاي قبلي در زمينه مرتبط بهبود داشته اند.
چكيده انگليسي :
The traffic prediction problem has received significant attention in terms of providing solutions to reduce transportation time. Due to the dependency of traffic conditions on time, there is a need for a method that can predict traffic in the shortest possible time. Traffic data can be modeled as temporal graphs. In this thesis, we propose two solutions aimed at improving the execution time of graph neural networks for traffic prediction. Firstly, by employing knowledge distillation with the goal of reducing the execution time of neural networks, we introduce a cost function. This cost function is designed to train a network with fewer parameters using data distilled from a complex network, in such a way that its accuracy remains close to that of the intricate network. Subsequently, we introduce an algorithm that, using this cost function, can concurrently obtain a network. This network is acquired not only by pruning and removing less significant neurons in a complex network ( teacher ), but also by training it using distilled data from the teacher network. The training aims to maintain the accuracy of the pruned network ( student ) at a level close to that of the teacher network, while significantly reducing the number of parameters. These two proposed solutions offer the following advantages over previous methods. A novel approach in training the student network involves utilizing the distillation of spatial-temporal correlations from the teacher network. This is aimed at learning complex spatial and temporal patterns comprehended by the teacher network. Outlier detection in the training dataset is conducted, followed by their replacement with predictions from the teacher network. The pruning algorithm, on one side, is focused on determining the structure of the student network through the removal of low-importance neurons based on the teacher network. On the other side, it simultaneously trains the network resulting from each pruning step using the distillation of student knowledge. Ultimately, we evaluate our proposed cost function and algorithm on two datasets, PeMSD7 and PeMSD8. The results demonstrate that each of these two approaches has exhibited improvements over previous methods in the related domain.