شماره مدرك :
18654
شماره راهنما :
16204
پديد آورنده :
نكوزاده چهارمحالي، آناهيتا
عنوان :

توجه كارآمد مبتني بر موجك چندمقياسي براي ترنسفورمرهاي بينايي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
سيزده، 106ص.: مصور، جدول، نمودار
توصيفگر ها :
ترنسفورمر , توجه به خود , توجه موجك چند مقياسي , موجك
تاريخ ورود اطلاعات :
1402/04/26
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/04/27
كد ايرانداك :
2947000
چكيده فارسي :
معماري ترنسفورمرها كه در قلب آن مكانيسم استاندارد توجه به خود قرار دارد به تسلط گسترده‌اي در پردازش زبان طبيعي دست‌يافته است. مكانيسم استاندارد توجه به خود شباهت بين نشانه‌ها را ياد مي‌گيرد. بااين‌حال مكانيسم استاندارد توجه به خود داراي پيچيدگي درجه دوم با طول توالي است كه مانع از كاربرد آن در دنباله‌هاي طولاني‌تر (مثل تصاوير با وضوح‌بالا) مي‌شود. اخيراً، با الهام از عملگرهاي عصبي براي حل معادلات ديفرانسيل جزئي (PDE)، عملگر عصبي تبديل فوريه تطبيقي (AFNO) پيشنهادشده است. AFNO براي توجه به‌وضوح بالا با استفاده از كانولوشن سراسري كه به‌طور مؤثر از طريق تبديل فوريه سريع (FFT) پياده‌سازي مي‌شود، مورداستفاده قرار مي‌گيرد. درحالي‌كه FFT براي مطالعه‌ي رفتار فضايي هر تصوير مناسب نيست، AFNO مي‌تواند ويژگي‌هاي مقياس سراسري را كنترل كند ولي نمي‌تواند تصاوير طبيعي را كه معمولاً داراي نمايش‌هاي چند مقياسي هستند و ساختارهاي مقياس متوسط و كوچك كه معمولاً در تصاوير طبيعي ظاهر مي‌شوند، به‌خوبي نمايش دهد. در اين پايان‌نامه براي مدل‌سازي توجه‌هاي چند مقياسي و ساختارهاي مقياس درشت به متوسط و كوچك، توجه موجك چند مقياسي(MWA) را با استفاده از عملگرهاي عصبي موجك معرفي مي‌كنيم كه داراي پيچيدگي خطي در طول دنباله است. در معماري پيشنهادي پارامترهاي شبكه در فضاي موجك آموخته مي‌شوند كه هم در حوزه فركانس و هم در حوزه فضايي محلي هستند، بنابراين مي‌توانند الگوهاي موجود در تصاوير را بهتر ياد بگيرند. ما بلوك توجه به خود در ترنسفورمر بينايي (ViT) را با MWA جايگزين مي‌كنيم و آزمايش‌هايي را براي سنجش اثربخشي بلوك پيشنهادي خود انجام مي‌دهيم. آزمايش‌هاي انجام‌شده براي طبقه‌بندي تصوير، بر روي‌داده‌هاي CIFAR-10، CIFAR-100 و Tiny-ImageNet پيشرفت قابل‌توجهي را نسبت به جايگزين‌هاي توجه مبتني بر فوريه مانند AFNO و GFN نشان مي‌دهد.
چكيده انگليسي :
The Transformers architecture, with its standard self-attention mechanism at its heart, has achieved widespread dominance in natural language processing. The standard self-attention mechanism learns the similarity between tokens. However, the standard self-attention mechanism has quadratic complexity with sequence length, which prevents its application to longer sequences (such as high-resolution images). Recently, inspired by neural operators to solve PDEs, Adaptive Fourier Transform Neural Operator (AFNO) was proposed. AFNO is used to achieve high resolution using global convolution which is efficiently implemented via fast Fourier transform (FFT). While FFT is not suitable for studying the spatial behavior of images, AFNO can control global-scale features. However it cannot well represent natural images well that usually have multi-scale representations and medium and small-scale structures that usually appear in natural images. To model multiscale attention and large to medium and small-scale structures, we introduce multiscale Wavelet attention (MWA) using neural Wavelet operators, which has linear complexity along the sequence. In the proposed architecture, the network parameters are learned in the wavelet space, which are both in the frequency domain and in the local spatial domain, so they can better learn the patterns in the images. We replace the self-attention block in Vision Transformer (ViT) with MWA and conduct experiments for the effectiveness of our proposed block. Experiments performed for image classification on CIFAR-10, CIFAR-100, and TinyImageNet datasets show significant improvement over Fourier-based attention alternatives (such as AFNO and GFN).
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
بهزاد نظري , حامد نريماني
لينک به اين مدرک :

بازگشت