پديد آورنده :
نكوزاده چهارمحالي، آناهيتا
عنوان :
توجه كارآمد مبتني بر موجك چندمقياسي براي ترنسفورمرهاي بينايي
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
سيزده، 106ص.: مصور، جدول، نمودار
توصيفگر ها :
ترنسفورمر , توجه به خود , توجه موجك چند مقياسي , موجك
تاريخ ورود اطلاعات :
1402/04/26
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/04/27
چكيده فارسي :
معماري ترنسفورمرها كه در قلب آن مكانيسم استاندارد توجه به خود قرار دارد به تسلط گستردهاي در پردازش زبان طبيعي دستيافته است. مكانيسم استاندارد توجه به خود شباهت بين نشانهها را ياد ميگيرد. بااينحال مكانيسم استاندارد توجه به خود داراي پيچيدگي درجه دوم با طول توالي است كه مانع از كاربرد آن در دنبالههاي طولانيتر (مثل تصاوير با وضوحبالا) ميشود. اخيراً، با الهام از عملگرهاي عصبي براي حل معادلات ديفرانسيل جزئي (PDE)، عملگر عصبي تبديل فوريه تطبيقي (AFNO) پيشنهادشده است. AFNO براي توجه بهوضوح بالا با استفاده از كانولوشن سراسري كه بهطور مؤثر از طريق تبديل فوريه سريع (FFT) پيادهسازي ميشود، مورداستفاده قرار ميگيرد. درحاليكه FFT براي مطالعهي رفتار فضايي هر تصوير مناسب نيست، AFNO ميتواند ويژگيهاي مقياس سراسري را كنترل كند ولي نميتواند تصاوير طبيعي را كه معمولاً داراي نمايشهاي چند مقياسي هستند و ساختارهاي مقياس متوسط و كوچك كه معمولاً در تصاوير طبيعي ظاهر ميشوند، بهخوبي نمايش دهد. در اين پاياننامه براي مدلسازي توجههاي چند مقياسي و ساختارهاي مقياس درشت به متوسط و كوچك، توجه موجك چند مقياسي(MWA) را با استفاده از عملگرهاي عصبي موجك معرفي ميكنيم كه داراي پيچيدگي خطي در طول دنباله است. در معماري پيشنهادي پارامترهاي شبكه در فضاي موجك آموخته ميشوند كه هم در حوزه فركانس و هم در حوزه فضايي محلي هستند، بنابراين ميتوانند الگوهاي موجود در تصاوير را بهتر ياد بگيرند. ما بلوك توجه به خود در ترنسفورمر بينايي (ViT) را با MWA جايگزين ميكنيم و آزمايشهايي را براي سنجش اثربخشي بلوك پيشنهادي خود انجام ميدهيم. آزمايشهاي انجامشده براي طبقهبندي تصوير، بر رويدادههاي CIFAR-10، CIFAR-100 و Tiny-ImageNet پيشرفت قابلتوجهي را نسبت به جايگزينهاي توجه مبتني بر فوريه مانند AFNO و GFN نشان ميدهد.
چكيده انگليسي :
The Transformers architecture, with its standard self-attention mechanism at its heart, has achieved widespread dominance in natural language processing. The standard self-attention mechanism learns the similarity between tokens. However, the standard self-attention mechanism has quadratic complexity with sequence length, which prevents its application to longer sequences (such as high-resolution images). Recently, inspired by neural operators to solve PDEs, Adaptive Fourier Transform Neural Operator (AFNO) was proposed. AFNO is used to achieve high resolution using global convolution which is efficiently implemented via fast Fourier transform (FFT). While FFT is not suitable for studying the spatial behavior of images, AFNO can control global-scale features. However it cannot well represent natural images well that usually have multi-scale representations and medium and small-scale structures that usually appear in natural images. To model multiscale attention and large to medium and small-scale structures, we introduce multiscale Wavelet attention (MWA) using neural Wavelet operators, which has linear complexity along the sequence. In the proposed architecture, the network parameters are learned in the wavelet space, which are both in the frequency domain and in the local spatial domain, so they can better learn the patterns in the images. We replace the self-attention block in Vision Transformer (ViT) with MWA and conduct experiments for the effectiveness of our proposed block. Experiments performed for image classification on CIFAR-10, CIFAR-100, and TinyImageNet datasets show significant improvement over Fourier-based attention alternatives (such as AFNO and GFN).
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
بهزاد نظري , حامد نريماني