پديد آورنده :
ايزدي، مائده
عنوان :
بازيابي تصوير با استفاده از تركيب شبكەهاي عصبي پيچشي و مبدلها
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
پانزده، 112ص. : مرور، جدول، نمودار
توصيفگر ها :
شبكەهاي عصبي عميق , افزايش وضوح تصوير , مبدلها , توجه به خود , شبكەهاي پيچشي , فيلترهاي گابور , K⁃ميانگين دستە كوچك
تاريخ ورود اطلاعات :
1403/10/09
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/10/10
چكيده فارسي :
در سالهاي اخير، تقاضا براي وضوح فوقالعاده تصاوير در حوزههاي مختلف به طور چشمگيري افزايش يافته است و نياز به توسعه روشهاي كارآمدتر و دقيقتر براي اين منظور بيش از پيش احساس ميشود. در طول دهه گذشته، شبكههاي عصبي عميق عمدتاً با استفاده از شبكههاي عصبي پيچشي (CNN) در حوزه بينايي كامپيوتر به كار گرفته شدهاند. با اين حال، موفقيت چشمگير مدلهاي مبدل در پردازش زبان طبيعي (NLP) توجه جامعه بينايي كامپيوتر را نيز به خود جلب كرده است. مبدلها كه بر اساس مكانيزم توجه به خود كار ميكنند، قادرند ارتباطات ميان تمامي عناصر يك دنباله را مدلسازي كنند و به عنوان رويكردي نوين براي حل چالشهاي بينايي كامپيوتري مورد توجه قرار گرفتهاند. در اين پژوهش، از مدل SwinIR كه تلفيقي از شبكههاي عصبي پيچشي و مبدلها را به كار ميگيرد، استفاده شده است. براي بهبود عملكرد اين مدل، از ويژگيهاي بافتي بهره بردهايم تا توانايي SwinIR در پردازش تصاوير با دقت و كيفيت بالاتر افزايش يابد. هدف اصلي ما بهبود عملكرد اين مدل از طريق اعمال مكانيزم توجه به صورت مستقل بر پنجرههاي ورودي با ويژگيهاي بافتي مشابه است. اين رويكرد سبب ميشود مدل در فضاي جستجوي كوچكتر و با دقت بيشتري عمل كند و پنجرههاي با بافت مشابه بيشتر به يكديگر توجه كنند. به عبارت ديگر، با خوشهبندي پنجرههاي مشابه، نوعي سوگيري استقرايي به مدل افزوده ميشود. ويژگيهاي بافتي هر پنجره با استفاده از بانك فيلترهاي گابور استخراج و سپس با استفاده از الگوريتم K-ميانگين دستهكوچك، خوشهبندي ميشوند. در نهايت، مكانيزم توجه بهطور جداگانه بر روي پنجرههاي داراي برچسب مشابه در مدل SwinIR اعمال ميشود. نتايج حاصل از اين روش نشان ميدهد كه وضوح و كيفيت تصاوير بازسازيشده بهطور قابل توجهي بهبود يافته است.
چكيده انگليسي :
In recent years, the demand for ultra-high-resolution images across various domains has surged dramatically, highlighting the growing need for more efficient and accurate methods to achieve this. Over the past decade, deep neural networks, particularly convolutional neural networks (CNNs), have been predominantly employed in the field of computer vision. However, the remarkable success of transformer models in natural language processing (NLP) has also captured the attention of the computer vision community. Transformers, which operate based on self-attention mechanisms, are capable of modeling relationships among all elements in a sequence, and have emerged as a novel approach for addressing challenges in computer vision. In this study, we used the SwinIR model, which integrates both convolutional neural networks and transformers. To enhance the performance of this model, we leverage texture features to improve the SwinIR model's ability to process images with higher accuracy and quality. Our primary objective is to enhance the model’s performance by applying the attention mechanism independently to input windows with similar texture features. This approach enables the model to operate within a smaller search space with higher precision, allowing windows with similar textures to pay more attention to each other. In other words, by clustering similar windows, we inject an inductive bias into the model. The texture features of each window are extracted using a Gabor filter bank and then clustered using the mini-batch K-means algorithm. Finally, the attention mechanism is applied separately to windows with similar labels within the SwinIR model. The results obtained demonstrate that this method significantly enhances the resolution and quality of the reconstructed images.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
نادر كريمي , مهران صفاياني