پديد آورنده :
اميني، محمد
عنوان :
فراتفكيكپذيري تصاوير متني با استفاده مكانسيمهاي توجه
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
دوازده، 75ص، جدول، نمودار
توصيفگر ها :
متن صحنه , توجه فضايي , توجه كانال , فراتفكيكپذيري
تاريخ ورود اطلاعات :
1403/05/20
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1403/05/22
چكيده فارسي :
هدف فراتفكيكپذيري تك تصوير (SISR) بازيابي تصاوير با وضوح بالا از تصاوير با وضوح پايين است كه با توسعه يادگيري عميق در سالهاي اخير پيشرفت زيادي داشته است. فراتفكيكپذيري تصاوير متن صحنه (STISR) زيرشاخهاي از SISR با هدف افزايش وضوح تصوير متني با وضوح پايين و افزايش خوانايي كاراكترهاي تصوير است. عليرغم پيشرفتهاي قابل توجه در رويكردهاي اخير، STISR به دليل تنوع پسزمينه، ظاهر متن و طرحبندي و غيره همچنان يك كار چالش برانگيز است. شبكههاي فراتفكيكپذيري تصاوير متن صحنه در صورت دستيابي به نتايج قابلتوجه در شرايط چالشبرانگيز به دليل كاهش هزينه ناشي از استفاده از دوربينهاي ارزان قيمت امكان هوشمندسازي بسياري در صنايع مختلف را فراهم ميكند. ايده اصلي اين پژوهش استفاده از مكانيسم توجه براي توجه و تمركز بيشتر شبكه فراتفكيكپذيري بر روي مناطق مهم و عدم تمركز بر مناطق كم اهميت تصاوير ورودي است. در اين پژوهش يك لايه توجه به خود چند سر مبتني بر پنجره انتقاليافته به همراه دو ماژول توجه فضايي و كانال براي استخراج ويژگي هاي موثر در يك پيكربندي منحصر به فرد با هدف افزايش عملكرد شبكه فراتفكيكپذيري تصاوير متن صحنه ارائه شده است. باتوجه به نتايج به دست آمده توسط مدل بازشناسي متن ASTER بر روي زير مجموعه آسان از مجموعه داده استاندارد ،TextZoom روش پيشنهادي (MTATTEAM) موفق به كسب نتايج بالاتري نسبت به بسياري از مدلهاي مطرح اخير شده است. روش پيشنهادي دقت بازشناسي متن را در زير مجموعه آسان از TextZoom با استفاده از مدل بازشناسي متن ASTER 4.2 درصد و MORAN 3.2 درصد در مقايسه با مدل پايه خود (TATT) افزايش داده است.
چكيده انگليسي :
Single-image super resolution (SISR) is the recovery of high-resolution images from low-resolution images, which has made great progress with the development of deep learning in recent years. Scene text image super resolution resolution (STISR) is a sub-branch of SISR with the aim of increasing the resolution of low resolution text images and increasing the readability of image characters. Despite significant advances in recent approaches, STISR is still a challenging task due to the variety of background, text appearance and layout, etc. The Scene text image super resolution networks of scene text images, if significant results are achieved in challenging conditions due to the cost reduction caused by the use of cheap cameras, provide the possibility of many intelligentization in different industries. The main idea of this research is to use the attention mechanism to pay more attention and focus the super resolution network on the important areas and not focus on the less important areas of the input images. In this research, a multi-head self-attention layer based on the shifted window along with two spatial and channel attention modules for extracting effective features with the aim of increasing the performance of the Scene text image super resolution network is presented. According to the results obtained by the ASTER text recognition model on the easy subset of the standard TextZoom dataset, the proposed method (MTATTEAM) has achieved higher results than many recent SOTA models. The proposed method boosts the recognition accuracy in the easy subset of TextZoom using ASTER 2.4% and MORAN 2.3% recognition models compared to its base model (TATT).
استاد راهنما :
محمدرضا احمدزاده
استاد داور :
حامد نريماني , بهزاد نظري