پديد آورنده :
گيوكاشي، محمدحسين
عنوان :
تغيير اندازه و ترميم تصاوير با استفاده از شبكههاي عصبي عميق
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
هشت، 92ص. : مصور، جدول
توصيفگر ها :
تغيير اندازه تصوير , ترميم تصوير , شبكه عصبي پيچشي , ساختار مبتني بر مبدل
تاريخ ورود اطلاعات :
1402/06/20
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/06/22
چكيده فارسي :
در سالهاي اخير با گسترش استفاده از رسانههاي مبتني بر تصوير و دستگاههاي متفاوت مورد استفاده براي نمايش تصاوير، تغيير اندازهي تصوير متناسب با اندازهي صفحه نمايش مورد استفاده از اهميت برخودار است. تغيير اندازهي تصوير روشي است كه در آن پيكسلها در تصوير داراي اهميت متفاوت بوده و تلاش ميشود تا پيكسلهاي نشان دهنده محتواي با اهميت، مانند اشيا در تصوير در هنگام تغيير اندازه حفظ شوند. يكي از موارد مطرح در حوزهي بينايي كامپيوتر ترميم تصوير ميباشد. در زمينهي ترميم تصوير هدف بازسازي ناحيههاي از دست رفته در تصوير و يا حذف قسمتهاي مد نظر در تصوير و بازسازي مجدد آن ميباشد. در زمينهي تغيير اندازهي تصوير با توجه به اينكه در روشهاي پيشين خرابي و اعوجاج در هنگام تغيير اندازهي تصوير براي اشيا داخل تصوير به وجود آمده و همچنين راه حل مناسبي براي آموزش شبكهي عصبي عميق براي تغيير اندازهي تصوير و ساخت تصاوير خروجي با اندازهي متفاوت نسبت به ورودي وجود نداشته، در اين پاياننامه روشهاي پيشنهادي براي حل مشكلات مطرح شده ارائه ميشود. همچنين در حوزهي ترميم تصوير با توجه به ديد محلي روشهاي سنتي مانند درونيابي براي ترميم تصوير و نياز به حفظ همگني و يكنواختي در ترميم تصاوير صورت، روشهايي در حوزهي ترميم تصوير نيز ارائه ميشود. در اين پاياننامه دو روش براي تغيير اندازه تصوير ارائه ميشود. در روش پيشنهادي اول با توجه به اشيا موجود در تصوير و استفاده از شبكههاي از پيش آموزش ديده شده و الگوريتم بهينهسازي جمعي ذرات، تغيير اندازه تصوير صورت ميگيرد. در روش پيشنهادي دوم، ساختاري براي آموزش شبكههاي عصبي عميق با اندازهي تصاوير ورودي متفاوت در زمان آموزش و استفاده از ماسك شامل شي براي ايجاد تصوير تغيير اندازه يافته ارائه ميشود. همچنين، در اين پايان نامه دو روش پيشنهادي براي ترميم تصوير ارائه ميشود. در روش پيشنهادي اول از ساختار رمزگذار رمزگشا جهت آموزش شبكهي عصبي براي ترميم تصوير استفاده ميشود. در روش پيشنهادي دوم، ساختاري مبتني بر معماري مبدل جهت ترميم تصوير صورت با در نظر گرفتن كيفيت بازسازي ناحيههاي مختلف در صورت، با استفاده از تمايزدهندههاي متفاوت ارائه ميشود. با توجه به خروجيهاي بدست آمده با استفاده از روشهاي پيشنهادي در دو حوزهي تغيير اندازه تصوير و ترميم تصوير، از نظر دو معيار كيفي و كمي مشاهده ميشود كه روشهاي پيشنهادي عملكرد بهتري نسبت به ساير روشهاي مطرح در دو حوزهي تغيير اندازه تصوير و ترميم تصوير به دست آوردهاند.
چكيده انگليسي :
In recent years, there has been a significant increase in the use of image-based media and various devices for displaying images. Consequently, it has become crucial to resize images according to the screen size. Image retargeting is a technique that involves assigning different levels of importance to pixels in an image to preserve important content, such as objects within the image, during resizing. One of the challenges in computer vision is image inpainting, which aims to restore lost or remove unwanted parts of an image and reconstruct it. In the field of image retargeting, previous methods have resulted in damage and distortion when resizing images for objects within them. Thus, a viable solution for training deep neural networks to change image size and create output images of different sizes from input images has been proposed in this thesis. Additionally, this thesis presents methods for resolving issues raised in the field of image inpainting based on local view interpolation and the need to maintain homogeneity and uniformity in face image restoration. Two methods are proposed for changing the image size: first, by leveraging pre-trained networks and particle swarm optimization algorithm to resize images based on object recognition within them; and second, by introducing a framework for training deep neural networks using masks containing the object of interest to create resized images. The thesis also proposes two approaches for image inpainting: first, by using an encoder-decoder structure to train the neural network; and second, by presenting a transformer-based architecture that considers the quality of reconstruction in different areas of the face using multiple discriminators. The results obtained using the proposed methods in the fields of image retargeting and image inpainting demonstrate superior performance compared to other existing methods based on both quantitative and qualitative criteria.
استاد راهنما :
شادرخ سماوي
استاد داور :
محمدعلي خسروي فرد , سمانه حسيني