شماره مدرك :
20545
شماره راهنما :
17671
پديد آورنده :
كاظم‌پور، زينب
عنوان :

بازيابي لحظه‌ي ويدئويي با استفاده از شبكه‌هاي ترنسفورمر

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1404
صفحه شمار :
يازده، 79ص. : مصور، جدول، نمودار
توصيفگر ها :
بازيابي لحظه‌ي ويدئويي , شبكه‌هاي ترنسفورمر , توجه متقابل , وابستگي زماني نسبي
تاريخ ورود اطلاعات :
1404/07/23
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
آموزش الكترونيكي
تاريخ ويرايش اطلاعات :
1404/07/23
كد ايرانداك :
23148071
چكيده فارسي :
با گسترش بي‌سابقة داده‌هاي ويدئويي در بسترهاي ديجيتال و پلتفرم‌هاي برخط، نياز به سامانه‌هايي هوشمند براي تحليل و بازيابي خودكار محتواي ويدئويي بيش از گذشته احساس مي‌شود. يكي از مسائل مهم و كاربردي در اين حوزه، بازيابي لحظة ويدئويي است؛ فرايندي كه طي آن، يك بازة زماني مشخص از يك ويدئو استخراج مي‌شود كه بيشترين هم‌خواني معنايي را با يك پرس‌وجوي متني ورودي دارد. چالش اصلي در اين حوزه، تركيب مؤثر داده‌هاي چندرسانه‌اي و مدل‌سازي وابستگي‌هاي معنايي و زماني ميان پرس‌وجو و محتواي ويدئو است. اگرچه روش‌هاي مختلفي در سال‌هاي اخير براي حل اين مسئله پيشنهاد شده‌اند، اغلب آن‌ها با محدوديت‌هايي نظير عدم تعامل مؤثر بين وجوه مختلف، ناديده‌گرفتن وابستگي‌هاي زماني بين كليپ‌ها و فقدان درك عميق از معناي پرس‌وجو مواجه‌اند. در اين پژوهش، مدلي نوين بر پاية معماري ترنسفورمر چندرسانه‌اي با هدف افزايش دقت و درك معنايي معرفي شده است كه به‌صورت مؤثر اطلاعات متني، بصري و صوتي را در قالبي يكپارچه و وابسته به پرس‌وجو ادغام مي‌كند. روش پيشنهادي شامل سه نوآوري اصلي است: نخست، استفاده از مكانيسم توجه متقابل ميان پرس‌وجو و ورودي‌هاي چندرسانه‌اي براي استخراج نمايش‌هايي كه به‌صورت مفهومي با پرسش مرتبط مي‌باشند. دوم، بهره‌گيري از رمزگذار گلوگاهي چندرسانه‌اي كه با استفاده از مراحل فشرده‌سازي و گسترش، تبادل اطلاعات بين وجوه را در فضايي بهينه و معنادار انجام مي‌دهد. سوم، به‌كارگيري رمزگذار زماني نسبي جهت مدل‌سازي فاصله‌هاي زماني بين كليپ‌ها تا بتواند روابط ترتيبي را دقيق‌تر تحليل و لحاظ كند. درنهايت مولد پرس‌وجو توكن‌هايي توليد مي‌كند كه با رمزگشاي ترنسفورمر تعامل دارند و هدف آن‌ها تحليل نهايي بازنمايي‌هاي استخراج‌شده جهت پيش‌بيني مرزهاي زماني لحظة موردنظر است. ارزيابي نتايج اين پژوهش نشان مي‌دهد كه مدل پيشنهادي در مقايسه با روش‌هاي گذشته عملكرد بهتري را در بازيابي لحظات مرتبط با پرس‌وجو ارائه مي‌دهد. همچنين در اين روش روابط معنايي ميان پرس‌وجوي متني و كليپ‌هاي ويدئويي تقويت شده است. عملكرد روش پيشنهادي در بازيابي لحظة ويدئويي روي مجموعه‌داده Charades-STA در معيار R@1 با حد آستانه 0٫5، 7٫41 درصد و با حد آستانه 0٫7، 4٫68 درصد در مقايسه با مدل پاية خود (UMT) بهبود پيدا كرده است.
چكيده انگليسي :
With the unprecedented growth of video data across digital platforms an‎d online services, the deman‎d for intelligent systems capable of automaticly analyzing an‎d retrieving video content has become increasingly critical. One of the key an‎d practical tasks in this domain is video moment retrieva‎l, where a specific temporal segment of a video is extracted that best matches the semantics of a given textual query. The main challenge in this task lies in effectively fusing multi-modal data an‎d modeling semantic an‎d temporal dependencies between the query an‎d the video content. Although various methods have been proposed in recent years, many of them still face limitations including inefficient interaction among different modalities, neglect of temporal relationships between video segments, an‎d insufficient understan‎ding of the query semantics. In this study, we propose a novel model based on a multi-modal transformer architecture, aiming to enhance both retrieva‎l accuracy an‎d semantic understan‎ding by effectively integrating textual, visual, an‎d audio information into a query-dependent unified representation. The proposed method introduces three core innovations: First, it leverages a cross-attention mechanism between the query an‎d multi-modal inputs to generate semantically aligned representations. Second, it employs a multi-modal bottleneck encoder that facilitates information exchange across modalities through compression an‎d expansion phases in a efficient an‎d meaningful space. Third, a relative temporal encoder is introduced to model the temporal distances between clips, enabling more accurate analysis an‎d incorporation of sequential dependencies. In the final stage, a query generator produces tokens that interact with a transformer decoder, which processes the integrated representations to predict the temporal boundaries of the target moment. Experimental eva‎luation shows that the proposed model outperforms previous approaches in retrieving query-relevant moments. Moreover, it demonstrates an improved alignment between the semantics of the textual queries an‎d the corresponding video segments. Specifically, the proposed method achieves a 7.41% improvement at R@1 with IoU=0.5 an‎d a 4.68% improvement at R@1 with IoU=0.7 over its baseline model (UMT) on the Charades-STA dataset.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
الهام محمودزاده , محمد داورپناه جزي
لينک به اين مدرک :

بازگشت