توصيفگر ها :
بازيابي تصوير مبتني بر محتوا , استخراج ويژگي , مكانيسم توجه , يادگيري چندوجهي , شبكههاي عصبي گرافي , شكاف معنايي
چكيده فارسي :
بازيابي تصوير مبتني بر محتوا تكنيكي است كه تصاوير مشابه را در آرشيوهاي بزرگ شناسايي ميكند. چنين رويكردي ميتواند در حوزههاي زيادي ازجمله پزشكي، جرمشناسي، مكانيابي و غيره كمككننده باشد. اين زمينه تحقيقاتي بهسرعت درحالتوسعه است و در دو دهه گذشته توجه محققين بسياري را به خود جلب كرده است. در اين پژوهش، يك سيستم CBIR جديد پيشنهاد شده است كه با تركيب تكنيكهاي پيشرفته هوش مصنوعي مانند مكانيسم توجه، شبكههاي عصبي گراف (GNNs) و مدلهاي يادگيري چندوجهي مانند BLIP در زمينه CBIR بهبود ايجاد مينمايد.
اين سيستم با استفاده از مدلهاي چندوجهي و ادغام آن با شبكههاي عصبي گرافي، به شيوه جديدي استخراج ويژگيها را انجام ميدهد و از Tensor هاي با ابعاد بالا بهعنوان ورودي يك معماري GNN استفاده مينمايد كه روابط بين اجزاي مختلف يك تصوير را مدل ميكند. مكانيسمهاي توجه براي تمركز بر مرتبطترين بخشهاي تصوير به كار گرفته شدهاند و از GNN ها براي گرفتن وابستگيهاي ساختاري و زمينهاي بين عناصر تصوير استفاده شده است تا سيستم بتواند نتايج دقيقتري را ارائه نمايد. همچنين از مدل چندوجهي BLIP براي گسترش قابليتهاي سيستم استفاده شده است تا به ارتباط دادههاي بصري و متني در تشخيص هدفمند پراهميتترين بخشهاي تصوير كمك كند. اين رويكرد چندوجهي درك عميقتري از رابطه بين تصاوير و متن توصيفي آنها را امكانپذير ميكند و بهطور قابلتوجهي اثربخشي بازيابي را براي دادههاي تركيبي بصري و متني افزايش ميدهد.
اين پژوهش با نمايش پتانسيل تركيب مكانيسمهاي توجه، GNN ها و يادگيري چندوجهي براي يك سيستم CBIR رويكرد جديدي در اين زمينه ايجاد ميكند. ارزيابيها نشان ميدهند كه رويكرد پيشنهادي از نظر دقت در بازيابي مشابهترين تصوير به تصوير پرسوجو به دقت 85/67 رسيده است و نسبت به مدلهاي ديگر بهتر عمل ميكند.
چكيده انگليسي :
Content-Based Image Retrieval (CBIR) is a technique that identifies similar images within large archives. This approach can be beneficial in various domains, including medicine, forensics, localization, and more. The field of CBIR has rapidly evolved, garnering significant attention from researchers over the past two decades. In this study, a novel CBIR system is proposed that enhances performance by integrating advanced artificial intelligence techniques such as attention mechanisms, Graph Neural Networks (GNNs), and multimodal learning models like BLIP.
The proposed system employs multimodal models and integrates them with graph neural networks to perform feature extraction in a novel manner. It utilizes high-dimensional tensors as inputs to a GNN architecture, which models the relationships among different components of an image. Attention mechanisms are leveraged to focus on the most relevant parts of the image, while GNNs capture the structural and contextual dependencies between image elements, enabling the system to deliver more accurate results. Furthermore, the BLIP multimodal model is utilized to expand the system's capabilities, facilitating the connection between visual and textual data for targeted identification of the most significant image components. This multimodal approach enables a deeper understanding of the relationship between images and their descriptive text, significantly enhancing retrieval effectiveness for visual-textual hybrid data.
This research, by demonstrating the potential of combining attention mechanisms, GNNs, and multimodal learning for a CBIR system, introduces a new approach in this field. Experimental evaluations indicate that the proposed approach achieves an accuracy of 85.67% in retrieving the most similar image to the query image.