توصيفگر ها :
شبكه مولد متخاصم , يادگيري نمايش ازهمگسيخته , يادگيري شباهت , سنتز تصاوير , مدلسازي مولد , يادگيري عميق
چكيده فارسي :
در چند سال اخير تحقيقات در زمينه شبكههاي مولد متخاصم رشد چشمگيري داشته است. اين شبكهها كاربردهاي مختلفي مانند بينايي ماشين و پردازش زبان دارند كه عملكرد خيرهكنندهاي داشته است. در ميان بسياري از اين كاربردها، سنتز تصاوير به خوبي مورد مطالعه و تحقيق قرار گرفته است. تحقيقاتي كه در زمينه سنتز تصاوير انجام شده ظرفيت بالاي اين شبكهها را نشان داده است. مدل مولد توانايي توليد دادههاي جديد را دارد و آموزش اين مدلها عمدتاً به دستههاي نظارتشده، نظارتنشده و نيمهنظارتي دستهبندي ميشود. اگر مدل مولد بتواند منبع تغييرات اساسي تصاوير در نمايشها را از يكديگر جدا كند، مدل توانايي يادگيري نمايش ازهمگسيخته را دارد. ما در اين گزارش مدلهاي مولد مهم در كاربرد سنتز تصاوير كه داراي نمايش ازهمگسيخته خوبي هستند را بررسي ميكنيم و با طريقه عملكرد هر يك از آنها آشنا ميشويم. مدل SCGAN يكي از همين مدلهاي مولد ميباشد كه بصورت نظارتنشده آموزش ميبيند. فرق مدل SCGAN با شبكه مولد متخاصم اين است كه در تابع زيان اين مدل از يك قيد شباهت بهعنوان عبارت منظمسازي استفاده شده و قدرت يادگيري نمايش ازهمگسيخته را بر اساس شباهت ميان تصاوير فراهم كرده است. ما مدل SCGAN را بطور دقيق بررسي ميكنيم و طريقه عملكرد آن را در سطحي عميق درك ميكنيم. همين درك عميق باعث ميشود متوجه شويم قيد شباهتي كه استفاده شده است، همانند تابع زيان متقابل در زمينه يادگيري شباهت رفتار ميكند. بدين شكل با مسئله يادگيري شباهت آشنا ميشويم و برخي تحقيقات انجام شده در اين زمينه را بررسي ميكنيم. لذا برخي روشها و معيارهاي ارزيابي شباهت مانند معيار SSIM را بررسي ميكنيم. از اين معيار در قيد شباهت مدل SCGAN استفاده ميكنيم زيرا بنظر ميآيد مدلي كه درك و هوش بالايي داشته باشد، همانند انسانها شباهت بين تصاوير را بر اساس ساختار و ويژگيهاي سطح بالايشان ميسنجد. تغييرات ديگري نيز در مدل SCGAN اعمال ميكنيم تا عملكرد آن را بهبود دهيم و درنهايت مدل تغييريافته را پيادهسازي ميكنيم. در مقاله SCGAN براي سنجش عملكرد مدل، مقدار لگاريتم درستنمايي را بر اساس روش پنجره پارزن گوسي بدست آورده بودند. اين روش ارزيابي اطلاعات آماري راجع به توزيع تصاوير توليدي ميدهد ولي راجع به تنوع تصاوير، واقعنمايي و قدرت ازهمگسيختگي نمايش يادگيريشده به ما اطلاعاتي نميدهد. در واقع ممكن است مدل دچار فروپاشي حالت باشد ولي مقدار درستنمايي خوبي را مشاهده كنيم. لذا ما از معيارهاي مناسب براي بررسي كيفيت تصاوير، تنوع تصاوير و قدرت ازهمگسيختگي نمايش يادگيريشده استفاده ميكنيم. نتايج نشان ميدهند كه مدل تغييريافته عملكرد بهتري نسبت به بقيه مدلها داشته است. مدل تغييريافته نسبت به مدل SCGAN بر روي مجموعهداده MNIST و Fashion-MNIST به ترتيب از لگاريتم درستنمايي 232.5 و 324.2 به مقدار 234.8 و 332.6 دست يافت. همچنين عملكرد مدل با معيار FID بر روي اين مجموعهدادهها به ترتيب از 4.11 و 14.63 به 3.42 و 12.97 بهبود يافته است. در زمينه ازهمگسيختگي نيز از مقدار 0.77 به 0.89 براي MNIST و از 0.89 به 0.91 براي Fashion-MNIST ارتقا پيدا كرد و نمايش ازهمگسيخته بهتري را نسبت به SCGAN ياد گرفت. مدل تغييريافته قابليت تعميمپذيري بهتري نسبت به بقيه مدلهاي مولد دارد.
چكيده انگليسي :
In recent years, research in the field of generative adversarial networks has grown significantly. These networks have various applications such as machine vision and language processing, which have performed amazingly. Among many of these applications, image synthesis has been well studied and researched. The research conducted in the field of image synthesis has shown the high capacity of these networks. The generative model has the ability to generate new data and the training of these models is mainly classified into supervised, unsupervised and semi-supervised. If the generative model can separate the source of variation in the images, it can learn the disentangled representation. In this report, we examine important generative models in the application of image synthesis which have a good disentangled representation and get to know how each of them works. SCGAN is one such generative model that is trained in an unsupervised manner. The difference between the SCGAN and the adversarial generative networks is that in the loss function of SCGAN, a similarity constraint is used as a regularization term and it has gained the ability to learn the disentangled representation based on the similarity between the generated images. We examine the SCGAN in details and understand how it works at a deeper level. This understanding makes us realize that the similarity constraint used, functions like contrastive loss function. So, we get to know the problem of similarity learning and we review some research done in this field. Therefore, we investigate some similarity evaluation methods and criteria such as the SSIM. We use this criterion in SCGAN’s similarity constraint because we believe that a model with high understanding and intelligence, measures the similarity between images based on their structure and high-level features, just like humans do. We apply some other changes to the SCGAN to improve its performance and finally implement the modified model. SCGAN obtained the value of the log-likelihood using the Gaussian Parzen window method to measure the performance of the model. This value gives statistical information about the distribution of produced images, but it does not give us information about the variety of images and the power of disentanglement of the learned representation. In fact, the model may suffer from mode collapse, but we observe a good likelihood value. Therefore, we used the appropriate criteria to check the quality of the images, the variety of the images and the power of disentanglement of the learned representation. The results show that the modified model performed better than any other model. Compared to the SCGAN, the log-likelihood of the modified model achieved 234.8 and 332.6 from 232.5 and 324.2 on the MNIST and Fashion-MNIST datasets, respectively. Also, with the FID criterion on these datasets, it has improved from 4.11 and 14.63 to 3.42 and 12.97, respectively. In terms of disentanglement, it improved from 0.77 to 0.89 for MNIST and from 0.89 to 0.91 for Fashion-MNIST and learned a better disenangled representation compared to SCGAN. The modified model has better generalisability than other generative models.