شماره مدرك :
20041
شماره راهنما :
17299
پديد آورنده :
ايزدي، مائده
عنوان :

بازيابي تصوير با استفاده از تركيب شبكەهاي عصبي پيچشي و مبدل‌ها

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1403
صفحه شمار :
پانزده، 112ص. : مرور، جدول، نمودار
توصيفگر ها :
شبكەهاي عصبي عميق , افزايش وضوح تصوير , مبدل‌ها , توجه به خود , شبكەهاي پيچشي , فيلترهاي گابور , K⁃ميانگين دستە كوچك
تاريخ ورود اطلاعات :
1403/10/09
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/10/10
كد ايرانداك :
23098466
چكيده فارسي :
در سال‌هاي اخير، تقاضا براي وضوح فوق‌العاده تصاوير در حوزه‌هاي مختلف به طور چشمگيري افزايش يافته است و نياز به توسعه روش‌هاي كارآمدتر و دقيق‌تر براي اين منظور بيش از پيش احساس مي‌شود. در طول دهه گذشته، شبكه‌هاي عصبي عميق عمدتاً با استفاده از شبكه‌هاي عصبي پيچشي (CNN) در حوزه بينايي كامپيوتر به كار گرفته شده‌اند. با اين حال، موفقيت چشمگير مدل‌هاي مبدل در پردازش زبان طبيعي (NLP) توجه جامعه بينايي كامپيوتر را نيز به خود جلب كرده است. مبدل‌ها كه بر اساس مكانيزم توجه به خود كار مي‌كنند، قادرند ارتباطات ميان تمامي عناصر يك دنباله را مدل‌سازي كنند و به عنوان رويكردي نوين براي حل چالش‌هاي بينايي كامپيوتري مورد توجه قرار گرفته‌اند. در اين پژوهش، از مدل SwinIR كه تلفيقي از شبكه‌هاي عصبي پيچشي و مبدل‌ها را به كار مي‌گيرد، استفاده شده است. براي بهبود عملكرد اين مدل، از ويژگي‌هاي بافتي بهره برده‌ايم تا توانايي SwinIR در پردازش تصاوير با دقت و كيفيت بالاتر افزايش يابد. هدف اصلي ما بهبود عملكرد اين مدل از طريق اعمال مكانيزم توجه به ‌صورت مستقل بر پنجره‌هاي ورودي با ويژگي‌هاي بافتي مشابه است. اين رويكرد سبب مي‌شود مدل در فضاي جستجوي كوچك‌تر و با دقت بيشتري عمل كند و پنجره‌هاي با بافت مشابه بيشتر به يكديگر توجه كنند. به عبارت ديگر، با خوشه‌بندي پنجره‌هاي مشابه، نوعي سوگيري استقرايي به مدل افزوده مي‌شود. ويژگي‌هاي بافتي هر پنجره با استفاده از بانك فيلترهاي گابور استخراج و سپس با استفاده از الگوريتم K-ميانگين دسته‌كوچك، خوشه‌بندي مي‌شوند. در نهايت، مكانيزم توجه به‌طور جداگانه بر روي پنجره‌هاي داراي برچسب مشابه در مدل SwinIR اعمال مي‌شود. نتايج حاصل از اين روش نشان مي‌دهد كه وضوح و كيفيت تصاوير بازسازي‌شده به‌طور قابل توجهي بهبود يافته است.
چكيده انگليسي :
In recent years, the demand for ultra-high-resolution images across various domains has surged dramatically, highlighting the growing need for more efficient and accurate methods to achieve this. Over the past decade, deep neural networks, particularly convolutional neural networks (CNNs), have been predominantly employed in the field of computer vision. However, the remarkable success of transformer models in natural language processing (NLP) has also captured the attention of the computer vision community. Transformers, which operate based on self-attention mechanisms, are capable of modeling relationships among all elements in a sequence, and have emerged as a novel approach for addressing challenges in computer vision. In this study, we used the SwinIR model, which integrates both convolutional neural networks and transformers. To enhance the performance of this model, we leverage texture features to improve the SwinIR model's ability to process images with higher accuracy and quality. Our primary objective is to enhance the model’s performance by applying the attention mechanism independently to input windows with similar texture features. This approach enables the model to operate within a smaller search space with higher precision, allowing windows with similar textures to pay more attention to each other. In other words, by clustering similar windows, we inject an inductive bias into the model. The texture features of each window are extracted using a Gabor filter bank and then clustered using the mini-batch K-means algorithm. Finally, the attention mechanism is applied separately to windows with similar labels within the SwinIR model. The results obtained demonstrate that this method significantly enhances the resolution and quality of the reconstructed images.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
نادر كريمي , مهران صفاياني
لينک به اين مدرک :

بازگشت