شماره مدرك :
19798
شماره راهنما :
17102
پديد آورنده :
حافظ‌پور، مهدي
عنوان :

افزايش وضوح ويديو با استفاده از يك مبدل بازگشتي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1403
صفحه شمار :
شانزده، 101ص.
توصيفگر ها :
مبدل‌ها , افزايش وضوح فيلم , يادگيري عميق , شبكه بازگشتي , شبكه موازي , تراز فريم‌به‌فريم
تاريخ ورود اطلاعات :
1403/07/21
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/07/24
كد ايرانداك :
23072863
چكيده فارسي :
هدف از افزايش كيفيت فيلم، بازيابي چندين فريم با كيفيت بالا از فريم‌هاي با كيفيت پايين است. روش‌هاي موجود در اين حوزه، عموماً به دو دسته كلي تقسيم مي‌شوند،‌ روش‌هاي موازي كه تمام فريم‌ها را به صورت همزمان و مستقل از يكديگر بازسازي مي‌كنند و روش‌هاي بازگشتي كه فريم‌هاي فيلم را به صورت متوالي و با استفاده از اطلاعات فريم قبلي بازسازي مي‌كنند. هر يك از اين روش‌ها داراي مزايا و معايبي هستند. روش‌هاي موازي در تركيب اطلاعات زماني برتري دارند، اما به دليل اندازه بزرگ مدل و مصرف حافظه بالا، با محدوديت‌هايي مواجه هستند. در مقابل، روش‌هاي بازگشتي به دليل اشتراك پارامترها در فريم‌هاي مختلف، از اندازه مدل كوچك‌تري برخوردارند، اما در مدل‌سازي وابستگي‌هاي دوربرد و موازي‌سازي با چالش‌هايي روبرو هستند. در اين پژوهش، با هدف بهره‌گيري از مزاياي هر دو رويكرد، يك روش بازگشتي مبتني بر مبدل‌ها را، پيشنهاد مي‌دهيم. اين روش، با پردازش موازي فريم‌هاي محلي مجاور در يك چارچوب بازگشتي سراسري، به تعادل مطلوبي بين اندازه مدل، كارايي و اثربخشي دست مي‌يابد. نتايج آزمايش‌ مدل به دست آمده براي وظيفه افزايش وضوح فيلم نشان مي‌دهد كه، روش پيشنهادي در مقايسه با ساير روش‌هاي موجود، امكان دستيابي به عملكردي مشابه و حتي بهتر در برخي مجموعه‌داده‌هاي معيار را داراست. با به كار گيري رويكرد موازي در يك چارچوب بازگشتي كلي، اين مدل موفق به بهبود عملكرد شبكه‌هاي افزايش كيفيت فيلم مبتني بر مبدل به اندازه قابل توجه 62/0 دسي‌بل در معيار تمام‌مرجع PSNR شده است. اين در حالي است كه اندازه مدل، حافظه مورد نياز در زمان تست و اجرا در اين روش، نسبت به روش‌هاي ديگر مبتني بر مبدل‌ها مانند VRT، بسيار كمتر و قابل مقايسه با روش‌هاي بازگشتي مانند BasicVSR++ است. اين شبكه، در مقايسه با دو شبكه VSRT و VRT كه به ترتيب داراي 6/32 و 6/35 ميليون پارامتر هستند، تنها با تعداد 10 ميليون پارامتر به نتايجي فراتر از هر دو شبكه در مجموعه داده‌ي REDs4 دست‌يافته است. همچنين حافظه مورد نياز براي اجراي اين شبكه در شرايط آزمايشي يكسان، مقداري در حدود 1/1 گيگابايت است كه اين مقدار در مقايسه با دو شبكه VSRT و VRT به ترتيب حدود 27 و 2 برابر كمتر است. به دليل استفاده از مبدل‌ها در هسته معماري شبكه پيشنهادي، اين مدل در مقايسه‌ با معماري‌هاي بازگشتي برتر مانند BasicVSR++ تنها با افزايش 15 درصدي تعداد پارامتر‌ها، موفق به مدلسازي روابط بسيار طولاني‌تر و بهبود SSIM به مقدار 0062/0 شده است.
چكيده انگليسي :
Super-resolution (SR) aims to recover a high-resolution (HR) image or multiple images from their cor-responding low-resolution (LR) counterparts. Unlike single-image restoration, video restoration typically requires the use of temporal information from multiple adjacent but often misaligned video frames. Exist-ing methods generally address this issue by employing a sliding window strategy or a recurrent architec-ture, each of which is either limited by frame-by-frame restoration or lacks the ability to model long-range dependencies effectively. Each approach has its own advantages and disadvantages. Parallel or sliding win-dow-based methods typically input multiple frames to generate a single high-quality output, allowing them to model long-range dependencies. However, they process each input frame multiple times during infer-ence, leading to inefficient feature utilization and increased computational costs. Recurrent methods, con-versely, primarily utilize previously reconstructed high-quality frames for subsequent frame reconstruction, which requires significantly less computational power. Limitations in parallelization, inadequate long-range temporal dependency modeling, and notable performance drops with few-frame videos are the main drawbacks of these models. In this thesis, we propose a recurrent video super-resolution transformer that combines the strengths of both architectures. Our model strikes a balance between performance, model size, and runtime resource consumption. We achieved this by dividing the video sequence into equally sized clips, allowing for paral-lel processing of each clip within an overall recurrent framework. Our model attained the highest perfor-mance on the REDS4 and Vimeo-90K datasets among all video restoration and super-resolution networks. We enhanced the best PSNR recorded by state-of-the-art models by up to 0.62 dB, while the model size and memory consumption of our model are significantly lower than transformer-based models and even compa-rable to the state-of-the-art recurrent model BasicVSR++. With only 10 million parameters, our model sur-passed both the VSRT and VRT models, which have 32.6M and 35.6M parameters, respectively. All of this was accomplished while our model requires nearly 2 and 27 times less memory, at just 1.1 gigabytes com-pared to VRT and VSRT. The proposed network has the ability to model ultra-long temporal correlations in comparison with BasicVSR++ due to the fact that it uses transformers as the underlaying base of the archi-tecture. This leads to SSIM improvement of 0.0062 over the recurrent BasicVSR++ model at the cost of only 15% increase in network parameters.
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
محمدعلي خسروي فرد , نادر كريمي
لينک به اين مدرک :

بازگشت