توصيفگر ها :
بازيابي لحظهي ويدئويي , شبكههاي ترنسفورمر , توجه متقابل , وابستگي زماني نسبي
چكيده فارسي :
با گسترش بيسابقة دادههاي ويدئويي در بسترهاي ديجيتال و پلتفرمهاي برخط، نياز به سامانههايي هوشمند براي تحليل و بازيابي خودكار محتواي ويدئويي بيش از گذشته احساس ميشود. يكي از مسائل مهم و كاربردي در اين حوزه، بازيابي لحظة ويدئويي است؛ فرايندي كه طي آن، يك بازة زماني مشخص از يك ويدئو استخراج ميشود كه بيشترين همخواني معنايي را با يك پرسوجوي متني ورودي دارد. چالش اصلي در اين حوزه، تركيب مؤثر دادههاي چندرسانهاي و مدلسازي وابستگيهاي معنايي و زماني ميان پرسوجو و محتواي ويدئو است. اگرچه روشهاي مختلفي در سالهاي اخير براي حل اين مسئله پيشنهاد شدهاند، اغلب آنها با محدوديتهايي نظير عدم تعامل مؤثر بين وجوه مختلف، ناديدهگرفتن وابستگيهاي زماني بين كليپها و فقدان درك عميق از معناي پرسوجو مواجهاند.
در اين پژوهش، مدلي نوين بر پاية معماري ترنسفورمر چندرسانهاي با هدف افزايش دقت و درك معنايي معرفي شده است كه بهصورت مؤثر اطلاعات متني، بصري و صوتي را در قالبي يكپارچه و وابسته به پرسوجو ادغام ميكند. روش پيشنهادي شامل سه نوآوري اصلي است: نخست، استفاده از مكانيسم توجه متقابل ميان پرسوجو و وروديهاي چندرسانهاي براي استخراج نمايشهايي كه بهصورت مفهومي با پرسش مرتبط ميباشند. دوم، بهرهگيري از رمزگذار گلوگاهي چندرسانهاي كه با استفاده از مراحل فشردهسازي و گسترش، تبادل اطلاعات بين وجوه را در فضايي بهينه و معنادار انجام ميدهد. سوم، بهكارگيري رمزگذار زماني نسبي جهت مدلسازي فاصلههاي زماني بين كليپها تا بتواند روابط ترتيبي را دقيقتر تحليل و لحاظ كند. درنهايت مولد پرسوجو توكنهايي توليد ميكند كه با رمزگشاي ترنسفورمر تعامل دارند و هدف آنها تحليل نهايي بازنماييهاي استخراجشده جهت پيشبيني مرزهاي زماني لحظة موردنظر است.
ارزيابي نتايج اين پژوهش نشان ميدهد كه مدل پيشنهادي در مقايسه با روشهاي گذشته عملكرد بهتري را در بازيابي لحظات مرتبط با پرسوجو ارائه ميدهد. همچنين در اين روش روابط معنايي ميان پرسوجوي متني و كليپهاي ويدئويي تقويت شده است. عملكرد روش پيشنهادي در بازيابي لحظة ويدئويي روي مجموعهداده Charades-STA در معيار R@1 با حد آستانه 0٫5، 7٫41 درصد و با حد آستانه 0٫7، 4٫68 درصد در مقايسه با مدل پاية خود (UMT) بهبود پيدا كرده است.
چكيده انگليسي :
With the unprecedented growth of video data across digital platforms and online services, the demand for intelligent systems capable of automaticly analyzing and retrieving video content has become increasingly critical. One of the key and practical tasks in this domain is video moment retrieval, where a specific temporal segment of a video is extracted that best matches the semantics of a given textual query. The main challenge in this task lies in effectively fusing multi-modal data and modeling semantic and temporal dependencies between the query and the video content. Although various methods have been proposed in recent years, many of them still face limitations including inefficient interaction among different modalities, neglect of temporal relationships between video segments, and insufficient understanding of the query semantics.
In this study, we propose a novel model based on a multi-modal transformer architecture, aiming to enhance both retrieval accuracy and semantic understanding by effectively integrating textual, visual, and audio information into a query-dependent unified representation. The proposed method introduces three core innovations: First, it leverages a cross-attention mechanism between the query and multi-modal inputs to generate semantically aligned representations. Second, it employs a multi-modal bottleneck encoder that facilitates information exchange across modalities through compression and expansion phases in a efficient and meaningful space. Third, a relative temporal encoder is introduced to model the temporal distances between clips, enabling more accurate analysis and incorporation of sequential dependencies. In the final stage, a query generator produces tokens that interact with a transformer decoder, which processes the integrated representations to predict the temporal boundaries of the target moment.
Experimental evaluation shows that the proposed model outperforms previous approaches in retrieving query-relevant moments. Moreover, it demonstrates an improved alignment between the semantics of the textual queries and the corresponding video segments. Specifically, the proposed method achieves a 7.41% improvement at R@1 with IoU=0.5 and a 4.68% improvement at R@1 with IoU=0.7 over its baseline model (UMT) on the Charades-STA dataset.