شماره مدرك :
18774
شماره راهنما :
16292
پديد آورنده :
يزدان پناه كجاني، ايمان
عنوان :

يادگيري نمايش ازهم‌گسيخته در سنتز تصاوير با استفاده از مدل SCGAN

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات-سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
يازده، 98ص، مصور، جدول، نمودار
توصيفگر ها :
شبكه مولد متخاصم , يادگيري نمايش ازهم‌گسيخته , يادگيري شباهت , سنتز تصاوير , مدل‌سازي مولد , يادگيري عميق
تاريخ ورود اطلاعات :
1402/06/28
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/06/29
كد ايرانداك :
2964303
چكيده فارسي :
در چند سال اخير تحقيقات در زمينه شبكه‌هاي مولد متخاصم رشد چشم‌گيري داشته است. اين شبكه‌ها كاربردهاي مختلفي مانند بينايي ماشين و پردازش زبان دارند كه عملكرد خيره‌كننده‌اي داشته است. در ميان بسياري از اين كاربردها، سنتز تصاوير به خوبي مورد مطالعه و تحقيق قرار گرفته است. تحقيقاتي كه در زمينه سنتز تصاوير انجام شده ظرفيت بالاي اين شبكه‌ها را نشان داده است. مدل مولد توانايي توليد داده‌هاي جديد را دارد و آموزش اين مدل‌ها عمدتاً به دسته‌هاي نظارت‌شده، نظارت‌نشده و نيمه‌نظارتي دسته‌بندي مي‌شود. اگر مدل مولد بتواند منبع تغييرات اساسي تصاوير در نمايش‌ها را از يكديگر جدا كند، مدل توانايي يادگيري نمايش ازهم‌گسيخته را دارد. ما در اين گزارش مدل‌هاي مولد مهم در كاربرد سنتز تصاوير كه داراي نمايش ازهم‌گسيخته خوبي هستند را بررسي مي‌كنيم و با طريقه عملكرد هر يك از آن‌ها آشنا مي‌شويم. مدل SCGAN يكي از همين مدل‌هاي مولد مي‌باشد كه بصورت نظارت‌نشده آموزش مي‌بيند. فرق مدل SCGAN با شبكه مولد متخاصم اين است كه در تابع زيان اين مدل از يك قيد شباهت به‌عنوان عبارت منظم‌سازي استفاده شده و قدرت يادگيري نمايش ازهم‌گسيخته را بر اساس شباهت ميان تصاوير فراهم كرده است. ما مدل SCGAN را بطور دقيق بررسي مي‌كنيم و طريقه عملكرد آن را در سطحي عميق درك مي‌كنيم. همين درك عميق باعث مي‌شود متوجه شويم قيد شباهتي كه استفاده شده است، همانند تابع زيان متقابل در زمينه يادگيري شباهت رفتار مي‌كند. بدين شكل با مسئله يادگيري شباهت آشنا مي‌شويم و برخي تحقيقات انجام شده در اين زمينه را بررسي مي‌كنيم. لذا برخي روش‌ها و معيارهاي ارزيابي شباهت مانند معيار SSIM را بررسي مي‌كنيم. از اين معيار در قيد شباهت مدل SCGAN استفاده مي‌كنيم زيرا بنظر مي‌آيد مدلي كه درك و هوش بالايي داشته باشد، همانند انسان‌ها شباهت بين تصاوير را بر اساس ساختار و ويژگي‌هاي سطح بالايشان مي‌سنجد. تغييرات ديگري نيز در مدل SCGAN اعمال مي‌كنيم تا عملكرد آن را بهبود دهيم و درنهايت مدل تغييريافته را پياده‌سازي مي‌كنيم. در مقاله SCGAN براي سنجش عملكرد مدل، مقدار لگاريتم درست‌نمايي را بر اساس روش پنجره پارزن گوسي بدست آورده بودند. اين روش ارزيابي اطلاعات آماري راجع به توزيع تصاوير توليدي مي‌دهد ولي راجع به تنوع تصاوير، واقع‌نمايي و قدرت ازهم‌گسيختگي نمايش يادگيري‌شده به ما اطلاعاتي نمي‌دهد. در واقع ممكن است مدل دچار فروپاشي حالت باشد ولي مقدار درست‌نمايي خوبي را مشاهده كنيم. لذا ما از معيارهاي مناسب براي بررسي كيفيت تصاوير، تنوع تصاوير و قدرت ازهم‌گسيختگي نمايش يادگيري‌شده استفاده مي‌كنيم. نتايج نشان مي‌دهند كه مدل تغييريافته عملكرد بهتري نسبت به بقيه مدل‌ها داشته است. مدل تغييريافته نسبت به مدل SCGAN بر روي مجموعه‌داده MNIST و Fashion-MNIST به ترتيب از لگاريتم درست‌نمايي 232.5 و 324.2 به مقدار 234.8 و 332.6 دست يافت. همچنين عملكرد مدل با معيار FID بر روي اين مجموعه‌داده‌ها به ترتيب از 4.11 و 14.63 به 3.42 و 12.97 بهبود يافته است. در زمينه از‌هم‌گسيختگي نيز از مقدار 0.77 به 0.89 براي MNIST و از 0.89 به 0.91 براي Fashion-MNIST ارتقا پيدا كرد و نمايش ازهم‌گسيخته بهتري را نسبت به SCGAN ياد گرفت. مدل تغييريافته قابليت تعميم‌پذيري بهتري نسبت به بقيه مدل‌هاي مولد دارد.
چكيده انگليسي :
In recent years, research in the field of generative adversarial networks has grown significantly. These networks have various applications such as machine vision and language processing, which have performed amazingly. Among many of these applications, image synthesis has been well studied and researched. The research conducted in the field of image synthesis has shown the high capacity of these networks. The generative model has the ability to generate new data and the training of these models is mainly classified into supervised, unsupervised and semi-supervised. If the generative model can separate the source of variation in the images, it can learn the disentangled representation. In this report, we examine important generative models in the application of image synthesis which have a good disentangled representation and get to know how each of them works. SCGAN is one such generative model that is trained in an unsupervised manner. The difference between the SCGAN and the adversarial generative networks is that in the loss function of SCGAN, a similarity constraint is used as a regularization term and it has gained the ability to learn the disentangled representation based on the similarity between the generated images. We examine the SCGAN in details and understand how it works at a deeper level. This understanding makes us realize that the similarity constraint used, functions like contrastive loss function. So, we get to know the problem of similarity learning and we review some research done in this field. Therefore, we investigate some similarity eva‎luation methods and criteria such as the SSIM. We use this criterion in SCGAN’s similarity constraint because we believe that a model with high understanding and intelligence, measures the similarity between images based on their structure and high-level features, just like humans do. We apply some other changes to the SCGAN to improve its performance and finally implement the modified model. SCGAN obtained the value of the log-likelihood using the Gaussian Parzen window method to measure the performance of the model. This value gives statistical information about the distribution of produced images, but it does not give us information about the variety of images and the power of disentanglement of the learned representation. In fact, the model may suffer from mode collapse, but we observe a good likelihood value. Therefore, we used the appropriate criteria to check the quality of the images, the variety of the images and the power of disentanglement of the learned representation. The results show that the modified model performed better than any other model. Compared to the SCGAN, the log-likelihood of the modified model achieved 234.8 and 332.6 from 232.5 and 324.2 on the MNIST and Fashion-MNIST datasets, respectively. Also, with the FID criterion on these datasets, it has improved from 4.11 and 14.63 to 3.42 and 12.97, respectively. In terms of disentanglement, it improved from 0.77 to 0.89 for MNIST and from 0.89 to 0.91 for Fashion-MNIST and learned a better disenangled representation compared to SCGAN. The modified model has better generalisability than other generative models.
استاد راهنما :
محمدعلي خسروي فرد , محمدرضا حيدرپور
استاد داور :
محمدرضا احمدزاده , حامد نريماني
لينک به اين مدرک :

بازگشت