شماره مدرك :
18752
شماره راهنما :
16274
پديد آورنده :
گيوكاشي، محمدحسين
عنوان :

تغيير اندازه و ترميم تصاوير با استفاده از شبكه‌هاي عصبي عميق

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
هشت، 92ص. : مصور، جدول
توصيفگر ها :
تغيير اندازه تصوير , ترميم تصوير , شبكه عصبي پيچشي , ساختار مبتني بر مبدل
تاريخ ورود اطلاعات :
1402/06/20
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/06/22
كد ايرانداك :
2958429
چكيده فارسي :
در سال‌هاي اخير با گسترش استفاده از رسانه‌هاي مبتني بر تصوير و دستگاه‌هاي متفاوت مورد استفاده براي نمايش تصاوير، تغيير اندازه‌ي تصوير متناسب با اندازه‌ي صفحه نمايش مورد استفاده از اهميت برخودار است. تغيير اندازه‌ي تصوير روشي است كه در آن پيكسل‌ها در تصوير داراي اهميت متفاوت بوده و تلاش مي‌شود تا پيكسل‌هاي نشان دهنده محتواي با اهميت، مانند اشيا در تصوير در هنگام تغيير اندازه حفظ شوند. يكي از موارد مطرح در حوزه‌ي بينايي كامپيوتر ترميم تصوير مي‌باشد. در زمينه‌ي ترميم تصوير هدف بازسازي ناحيه‌هاي از دست رفته در تصوير و يا حذف قسمت‌هاي مد نظر در تصوير و بازسازي مجدد آن مي‌باشد. در زمينه‌ي تغيير اندازه‌ي تصوير با توجه به اينكه در روش‌هاي پيشين خرابي و اعوجاج در هنگام تغيير اندازه‌ي تصوير براي اشيا داخل تصوير به وجود آمده و همچنين راه حل مناسبي براي آموزش شبكه‌ي عصبي عميق براي تغيير اندازه‌ي تصوير و ساخت تصاوير خروجي با اندازه‌ي متفاوت نسبت به ورودي وجود نداشته، در اين پايان‌نامه روش‌هاي پيشنهادي براي حل مشكلات مطرح شده ارائه مي‌شود. همچنين در حوزه‌ي ترميم تصوير با توجه به ديد محلي روش‌هاي سنتي مانند درون‌يابي براي ترميم تصوير و نياز به حفظ همگني و يكنواختي در ترميم تصاوير صورت، روش‌هايي در حوزه‌ي ترميم تصوير نيز ارائه مي‌شود. در اين پايان‌نامه دو روش براي تغيير اندازه تصوير ارائه مي‌شود. در روش پيشنهادي اول با توجه به اشيا موجود در تصوير و استفاده از شبكه‌هاي از پيش آموزش ديده شده و الگوريتم بهينه‌سازي جمعي ذرات، تغيير اندازه تصوير صورت مي‌گيرد. در روش پيشنهادي دوم، ساختاري براي آموزش شبكه‌هاي عصبي عميق با اندازه‌ي تصاوير ورودي متفاوت در زمان آموزش و استفاده از ماسك شامل شي براي ايجاد تصوير تغيير اندازه يافته ارائه مي‌شود. همچنين، در اين پايان نامه دو روش پيشنهادي براي ترميم تصوير ارائه مي‌شود. در روش پيشنهادي اول از ساختار رمزگذار رمزگشا جهت آموزش شبكه‌‌ي عصبي براي ترميم تصوير استفاده مي‌شود. در روش پيشنهادي دوم، ساختاري مبتني بر معماري مبدل جهت ترميم تصوير صورت با در نظر گرفتن كيفيت بازسازي ناحيه‌هاي مختلف در صورت، با استفاده از تمايزدهنده‌هاي متفاوت ارائه مي‌شود. با توجه به خروجي‌هاي بدست آمده با استفاده از روش‌هاي پيشنهادي در دو حوزه‌ي تغيير اندازه تصوير و ترميم تصوير، از نظر دو معيار كيفي و كمي مشاهده مي‌شود كه روش‌هاي پيشنهادي عملكرد بهتري نسبت به ساير روش‌هاي مطرح در دو حوزه‌ي تغيير اندازه تصوير و ترميم تصوير به دست آورده‌اند.
چكيده انگليسي :
In recent years, there has been a significant increase in the use of image-based media and various devices for displaying images. Consequently, it has become crucial to resize images according to the screen size. Image retargeting is a technique that involves assigning different levels of importance to pixels in an image to preserve important content, such as objects within the image, during resizing. One of the challenges in computer vision is image inpainting, which aims to restore lost or remove unwanted parts of an image and reconstruct it. In the field of image retargeting, previous methods have resulted in damage and distortion when resizing images for objects within them. Thus, a viable solution for training deep neural networks to change image size and create output images of different sizes from input images has been proposed in this thesis. Additionally, this thesis presents methods for resolving issues raised in the field of image inpainting based on local view interpolation and the need to maintain homogeneity and uniformity in face image restoration. Two methods are proposed for changing the image size: first, by leveraging pre-trained networks and particle swarm optimization algorithm to resize images based on object recognition within them; and second, by introducing a framework for training deep neural networks using masks containing the object of interest to create resized images. The thesis also proposes two approaches for image inpainting: first, by using an encoder-decoder structure to train the neural network; and second, by presenting a transformer-based architecture that considers the quality of reconstruction in different areas of the face using multiple discriminators. The results obtained using the proposed methods in the fields of image retargeting and image inpainting demonstrate superior performance compared to other existing methods based on both quantitative and qualitative criteria.
استاد راهنما :
شادرخ سماوي
استاد مشاور :
نادر كريمي
استاد داور :
محمدعلي خسروي فرد , سمانه حسيني
لينک به اين مدرک :

بازگشت