فراتفكيك‌پذيري تصاوير متني با استفاده مكانسيم‌هاي توجه

شماره مدرك :

19555

شماره راهنما :

16902

پديد آورنده :

اميني، محمد

عنوان :

فراتفكيك‌پذيري تصاوير متني با استفاده مكانسيم‌هاي توجه

مقطع تحصيلي :

كارشناسي ارشد

گرايش تحصيلي :

مخابرات سيستم

محل تحصيل :

اصفهان : دانشگاه صنعتي اصفهان

سال دفاع :

1403

صفحه شمار :

دوازده، 75ص، جدول، نمودار

توصيفگر ها :

متن صحنه , توجه فضايي , توجه كانال , فراتفكيك‌پذيري

تاريخ ورود اطلاعات :

1403/05/20

كتابنامه :

كتابنامه

رشته تحصيلي :

مهندسي برق

دانشكده :

مهندسي برق و كامپيوتر

تاريخ ويرايش اطلاعات :

1403/05/22

كد ايرانداك :

23054529

چكيده فارسي :

هدف فراتفكيك‌پذيري تك تصوير (SISR) بازيابي تصاوير با وضوح بالا از تصاوير با وضوح پايين است كه با توسعه يادگيري عميق در سال‌هاي اخير پيشرفت زيادي داشته است. فراتفكيك‌پذيري تصاوير متن صحنه (STISR) زيرشاخه‌اي از SISR با هدف افزايش وضوح تصوير متني با وضوح پايين و افزايش خوانايي كاراكترهاي تصوير است. علي‌رغم پيشرفت‌هاي قابل توجه در رويكردهاي اخير، STISR به دليل تنوع پس‌زمينه، ظاهر متن و طرح‌بندي و غيره همچنان يك كار چالش برانگيز است. شبكه‌هاي فراتفكيك‌پذيري تصاوير متن صحنه در صورت دستيابي به نتايج قابل‌توجه در شرايط چالش‌برانگيز به دليل كاهش هزينه ناشي از استفاده از دوربين‌هاي ارزان قيمت امكان هوشمندسازي بسياري در صنايع مختلف را فراهم مي‌كند. ايده اصلي اين پژوهش استفاده از مكانيسم توجه براي توجه و تمركز بيشتر شبكه فراتفكيك‌پذيري بر روي مناطق مهم و عدم تمركز بر مناطق كم اهميت تصاوير ورودي است. در اين پژوهش يك لايه توجه به خود چند سر مبتني بر پنجره انتقال‌يافته به همراه دو ماژول توجه فضايي و كانال براي استخراج ويژگي‌ هاي موثر در يك پيكربندي منحصر به فرد با هدف افزايش عملكرد شبكه فراتفكيك‌پذيري تصاوير متن صحنه ارائه شده است. باتوجه به نتايج به دست آمده توسط مدل بازشناسي متن ASTER بر روي زير مجموعه آسان از مجموعه داده استاندارد ،TextZoom روش پيشنهادي (MTATTEAM) موفق به كسب نتايج بالاتري نسبت به بسياري از مدل‌هاي مطرح اخير شده است. روش پيشنهادي دقت بازشناسي متن را در زير مجموعه آسان از TextZoom با استفاده از مدل بازشناسي متن ASTER 4.2 درصد و MORAN 3.2 درصد در مقايسه با مدل پايه خود (TATT) افزايش داده است.

چكيده انگليسي :

Single-image super resolution (SISR) is the recovery of high-resolution images from low-resolution images, which has made great progress with the development of deep learning in recent years. Scene text image super resolution resolution (STISR) is a sub-branch of SISR with the aim of increasing the resolution of low resolution text images and increasing the readability of image characters. Despite significant advances in recent approaches, STISR is still a challenging task due to the variety of background, text appearance and layout, etc. The Scene text image super resolution networks of scene text images, if significant results are achieved in challenging conditions due to the cost reduction caused by the use of cheap cameras, provide the possibility of many intelligentization in different industries. The main idea of this research is to use the attention mechanism to pay more attention and focus the super resolution network on the important areas and not focus on the less important areas of the input images. In this research, a multi-head self-attention layer based on the shifted window along with two spatial and channel attention modules for extracting effective features with the aim of increasing the performance of the Scene text image super resolution network is presented. According to the results obtained by the ASTER text recognition model on the easy subset of the standard TextZoom dataset, the proposed method (MTATTEAM) has achieved higher results than many recent SOTA models. The proposed method boosts the recognition accuracy in the easy subset of TextZoom using ASTER 2.4% and MORAN 2.3% recognition models compared to its base model (TATT).

استاد راهنما :

محمدرضا احمدزاده

استاد داور :

حامد نريماني , بهزاد نظري

لينک به اين مدرک :

https://library.iut.ac.ir/dL/search/default.aspx?Term=19555&Field=0&DTC=107

کلیه حقوق این اثر برای شرکت مهندسی ارتباطات پيام مشرق محفوظ می باشد