توصيفگر ها :
مبدلها , افزايش وضوح فيلم , يادگيري عميق , شبكه بازگشتي , شبكه موازي , تراز فريمبهفريم
چكيده فارسي :
هدف از افزايش كيفيت فيلم، بازيابي چندين فريم با كيفيت بالا از فريمهاي با كيفيت پايين است. روشهاي موجود در اين حوزه، عموماً به دو دسته كلي تقسيم ميشوند، روشهاي موازي كه تمام فريمها را به صورت همزمان و مستقل از يكديگر بازسازي ميكنند و روشهاي بازگشتي كه فريمهاي فيلم را به صورت متوالي و با استفاده از اطلاعات فريم قبلي بازسازي ميكنند. هر يك از اين روشها داراي مزايا و معايبي هستند. روشهاي موازي در تركيب اطلاعات زماني برتري دارند، اما به دليل اندازه بزرگ مدل و مصرف حافظه بالا، با محدوديتهايي مواجه هستند. در مقابل، روشهاي بازگشتي به دليل اشتراك پارامترها در فريمهاي مختلف، از اندازه مدل كوچكتري برخوردارند، اما در مدلسازي وابستگيهاي دوربرد و موازيسازي با چالشهايي روبرو هستند. در اين پژوهش، با هدف بهرهگيري از مزاياي هر دو رويكرد، يك روش بازگشتي مبتني بر مبدلها را، پيشنهاد ميدهيم. اين روش، با پردازش موازي فريمهاي محلي مجاور در يك چارچوب بازگشتي سراسري، به تعادل مطلوبي بين اندازه مدل، كارايي و اثربخشي دست مييابد. نتايج آزمايش مدل به دست آمده براي وظيفه افزايش وضوح فيلم نشان ميدهد كه، روش پيشنهادي در مقايسه با ساير روشهاي موجود، امكان دستيابي به عملكردي مشابه و حتي بهتر در برخي مجموعهدادههاي معيار را داراست. با به كار گيري رويكرد موازي در يك چارچوب بازگشتي كلي، اين مدل موفق به بهبود عملكرد شبكههاي افزايش كيفيت فيلم مبتني بر مبدل به اندازه قابل توجه 62/0 دسيبل در معيار تماممرجع PSNR شده است. اين در حالي است كه اندازه مدل، حافظه مورد نياز در زمان تست و اجرا در اين روش، نسبت به روشهاي ديگر مبتني بر مبدلها مانند VRT، بسيار كمتر و قابل مقايسه با روشهاي بازگشتي مانند BasicVSR++ است. اين شبكه، در مقايسه با دو شبكه VSRT و VRT كه به ترتيب داراي 6/32 و 6/35 ميليون پارامتر هستند، تنها با تعداد 10 ميليون پارامتر به نتايجي فراتر از هر دو شبكه در مجموعه دادهي REDs4 دستيافته است. همچنين حافظه مورد نياز براي اجراي اين شبكه در شرايط آزمايشي يكسان، مقداري در حدود 1/1 گيگابايت است كه اين مقدار در مقايسه با دو شبكه VSRT و VRT به ترتيب حدود 27 و 2 برابر كمتر است. به دليل استفاده از مبدلها در هسته معماري شبكه پيشنهادي، اين مدل در مقايسه با معماريهاي بازگشتي برتر مانند BasicVSR++ تنها با افزايش 15 درصدي تعداد پارامترها، موفق به مدلسازي روابط بسيار طولانيتر و بهبود SSIM به مقدار 0062/0 شده است.
چكيده انگليسي :
Super-resolution (SR) aims to recover a high-resolution (HR) image or multiple images from their cor-responding low-resolution (LR) counterparts. Unlike single-image restoration, video restoration typically requires the use of temporal information from multiple adjacent but often misaligned video frames. Exist-ing methods generally address this issue by employing a sliding window strategy or a recurrent architec-ture, each of which is either limited by frame-by-frame restoration or lacks the ability to model long-range dependencies effectively. Each approach has its own advantages and disadvantages. Parallel or sliding win-dow-based methods typically input multiple frames to generate a single high-quality output, allowing them to model long-range dependencies. However, they process each input frame multiple times during infer-ence, leading to inefficient feature utilization and increased computational costs. Recurrent methods, con-versely, primarily utilize previously reconstructed high-quality frames for subsequent frame reconstruction, which requires significantly less computational power. Limitations in parallelization, inadequate long-range temporal dependency modeling, and notable performance drops with few-frame videos are the main drawbacks of these models.
In this thesis, we propose a recurrent video super-resolution transformer that combines the strengths of both architectures. Our model strikes a balance between performance, model size, and runtime resource consumption. We achieved this by dividing the video sequence into equally sized clips, allowing for paral-lel processing of each clip within an overall recurrent framework. Our model attained the highest perfor-mance on the REDS4 and Vimeo-90K datasets among all video restoration and super-resolution networks. We enhanced the best PSNR recorded by state-of-the-art models by up to 0.62 dB, while the model size and memory consumption of our model are significantly lower than transformer-based models and even compa-rable to the state-of-the-art recurrent model BasicVSR++. With only 10 million parameters, our model sur-passed both the VSRT and VRT models, which have 32.6M and 35.6M parameters, respectively. All of this was accomplished while our model requires nearly 2 and 27 times less memory, at just 1.1 gigabytes com-pared to VRT and VSRT. The proposed network has the ability to model ultra-long temporal correlations in comparison with BasicVSR++ due to the fact that it uses transformers as the underlaying base of the archi-tecture. This leads to SSIM improvement of 0.0062 over the recurrent BasicVSR++ model at the cost of only 15% increase in network parameters.