توصيفگر ها :
پيش بيني مسير حركت انسان ها , مكانيزم توجه گراف , شبكه هاي عصبي كانولوشن , يادگيري عميق , پويايي حركت انسان ها , تعامل انسان انسان , شبكه هاي عصبي بازگشتي
چكيده فارسي :
امروزه موضوع پيشبيني مسير حركت انسانها در محيطهاي مختلف و به طور مشخص محيطهاي شلوغ به يك مسئله حياتي براي سامانههاي متحرك خودراني (اتومبيلهاي خودران و رباتهاي اجتماعي) كه ميخواهند در محيطهاي انسان محور حركت كنند، كاربردهاي امنيتي و همچنين نظارتي تبديل شده است. اين مسئله، به علت وجود تعاملات اجتماعي غيرمستقيم و نانوشتهي بين انسانها و تعاملات فيزيكي آنها با اجسام موجود در محيط، پيچيدگيهاي خاص خود را دارد. اين تعاملات، همگي از پيوستگي و آيندهنگري عابرين پياده در تعيين مسير حركت آينده نشات ميگيرند، بنابراين به نظر ميرسد پيشبيني تعاملات مكاني و زماني، براي جلوگيري از برخورد و تصادف عابرين پياده امري حياتي است. با اين حال، بسياري از روشهايي كه تا كنون ارائهشدهاند تعاملات زماني بين عابرين پياده موجود در صحنه را ناديده گرفتهاند. براي پرداختن به اين چالش ها، در اين پاياننامه ساختاري تحت عنوان ﮐﺪﮔﺬﺍﺭﯼ ﺻﺤﻨﻪ فيزيكي پيشنهاد ميشود. اين ساختار يك رويكرد تركيبي مبتني بر شبكهي توجه گراف و شبكههاي عصبي كانولوشنال براي پيشبيني مسير حركت انسانها ارائه ميكند. شبكهي پيشنهادي مبتني بر يك معماري توالي به توالي seq2seq مي باشد كه از دو قسمت كلي رمزگذار و رمزگشا تشكيل شده است. در روش پيشنهادي از ساختاري مركب، شامل دو شبكهي GAT و CNN براي استخراج تعاملات مكاني و از يك لايهي اضافي LSTM براي استخراج تعاملات زماني استفاده شدهاست. براي ارزيابي اثربخشي رويكرد ارائهشده، آزمايشهاي گستردهاي روي مجموعه دادههاي ETH و UCY، كه جزو رايج ترين مجموعه دادهها در اين حوزه هستند، انجام شدهاست. ارزيابي بر اساس معيارهاي پركاربرد ميانگين خطاي جابهجايي ADE و خطاي جابهجايي نهايي FDE انجام شدهاست. نتايج نشان دهندهي آن است كه ميانگين خطا ADE و FDE براي رويكرد پيشنهادي اين پاياننامه به ترتيب0.42 و 1.02 ميباشد كه در مقايسه با STGATكه مقدار 0.54 و 1.10 را ثبت كرده، منجر به بهبود قابل توجهي شده است. نتايج بهدستآمده نشانگر برتري رويكرد پيشنهادي نسبت به روشهاي سرآمدي كه پيشتر ارائه شدهاند، ميباشد.
چكيده انگليسي :
Nowadays, the issue of predicting the path of human movement in different environments, specifically crowded environments, has become a critical issue for self-driving mobile systems (self-driving cars and social robots) that want to move in human-centered environments, security and surveillance applications. This issue has its own complexities due to the existence of indirect and unwritten social interactions between humans and their physical interactions with objects in the environment. These interactions all originate from the continuity and foresight of pedestrians in determining the future movement path, so it seems that predicting spatial and temporal interactions is vital to prevent pedestrian collisions and accidents. However, most of the methods presented so far have ignored the temporal interactions between pedestrians in the scene. In order to address these challenges, a structure called physical scene coding is proposed in this thesis. This structure presents a hybrid approach based on graph attention network and convolutional neural networks for predicting the movement path of humans. The proposed network is based on a seq2seq (sequence-to-sequence) architecture, which consists of two general parts: Encoder and Decoder. In the proposed method, a composite structure that includes two networks, GAT (graph attention neural network) and CNN (convolutional neural network) is used to extract spatial interactions and an additional layer of LSTM (long short term memory) is used to extract temporal interactions. To evaluate the effectiveness of the proposed approach, extensive experiments have been performed on the ETH and UCY datasets, which are among the most common datasets in this field. evaluation based on widely used criteria named ADE (average displacement error) and FDE (final displacement error) has been done. The obtained results show that the average error ADE and FDE for the proposed approach of this thesis, it is 0.42 and 1.02, respectively, compared to STGAT, which recorded a value of 0.54 and 1.10, has led to a significant improvement. The obtained results indicate the superiority of the proposed approach over the best methods that have been presented before.