پديد آورنده :
اشرفي حبيب آبادي، متين
عنوان :
بررسي افزونگي پخششده در شبكههاي عصبي براي مسئله تعميم دامنه
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
مخابرات - سيستم
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
يازده، 100ص: مصور، جدول، نمودار
توصيفگر ها :
يادگيري ماشين , شبكه عصبي , تعميم دامنه , افزونگي پخششده
تاريخ ورود اطلاعات :
1404/05/21
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/05/21
چكيده فارسي :
عملكرد چشمگير مدلهاي يادگيري ماشين، بهويژه شبكههاي عصبي عميق، در انجام طيف گستردهاي از وظايف باعث شده است كه استفاده از آنها افزايش بسيار زيادي داشته باشد و انتظار ميرود كه در حوزههاي حساس مانند پزشكي و قضاوت نيز مورد استفاده قرار گيرند. با اين وجود، اغلب عملكرد اين شبكهها با عوض شدن توزيع داده افت پيدا ميكند و بنابراين لازم است كه شبكههايي با قابليت تعميمپذيري بالاتر طراحي شوند. در مسئله تعميم دامنه، تلاش ميشود كه با تركيب هوشمندانه دادههاي چند توزيع مرتبط، شبكهاي آموزش داده شود كه عملكرد خوبي روي توزيعهاي ديدهنشده داشته باشد. ازسويديگر، شبكههاي پيچيدهاي كه با مجموعهدادههاي بزرگ آموزش داده شدهاند و در برابر تغيير توزيع داده مقاومت بيشتري نشان ميدهند، معمولاً ساختارشان افزونگي زيادي در سطوح مختلف مانند نورون، كانال يا پارامتر دارد؛ موضوعي كه در كاربردهايي با منابع محاسباتي محدود، به مسئلهاي چالشبرانگيز تبديل ميشود و نيازمند شناخت دقيق و مديريت مؤثر است. در همين راستا، بهتازگي فرضيه افزونگي پخششده مطرح شده است كه طبق آن، اطلاعات مورد نياز براي پيشبيني شبكه، در سرتاسر نورونهاي يك لايه پخش شده است و با انتخاب تصادفي نورونها، ميتوان به عملكردي رسيد كه مشابه با عملكرد همه نورونها است. در اين پژوهش، براي بررسي افزونگي پخششده در آخرين لايه پنهان يك شبكه پيشآموزشديده، زيرمجموعههايي تصادفي از نورونهاي اين لايه با اندازههاي مختلف انتخاب ميشود و با استفاده از آنها، عملكرد شبكه روي دو مجموعهداده مسئله تعميم دامنه ارزيابي ميشود. بهعلاوه، براي بررسي نوع ديگري از افزونگي پخششده، بعضي از گردايانهاي محاسبهشده در طول فرايند آموزش، بهصورت تصادفي برابر صفر قرار داده ميشوند و در نتيجه، بخشي تصادفي از پارامترهاي شبكه منجمد ميشوند. شبيهسازيهاي انجامشده وجود افزونگي پخششده در نورونها را تأييد ميكنند و همچنين نشان ميدهند اگر نرخ يادگيري بهصورت مناسب تنظيم شود، با انتخاب تصادفي بخش كوچكي از نورونهاي آخرين لايه پنهان و بهروزرساني درصد كمي از كل پارامترها، ميتوان به عملكردي رسيد كه تفاوت زيادي با عملكرد شبكه كامل ندارد. براي مثال، در تمامي آزمايشها، تنها با انتخاب 5درصد از نورونها و آموزش 10درصد از پارامترها، دقت حاصلشده حدود 3درصد كمتر از حالتي است كه كل شبكه بهطور كامل آموزش داده ميشود. اين يافتهها ميتوانند مقدمهاي براي توسعه روشهايي باشند كه با استفاده مؤثرتر از افزونگي شبكههاي عصبي، به كاهش تعداد پارامترها و هزينه آموزش منجر ميشوند.
چكيده انگليسي :
The remarkable performance of machine learning models—particularly deep neural networks—across a wide range of tasks has led to their widespread adoption, with growing interest in deploying them in high-stakes domains such as medicine and law. However, these networks often suffer a significant drop in performance when the data distribution shifts, highlighting the need for more generalizable networks. Domain generalization addresses this issue by leveraging data from multiple related distributions to train models that perform well on previously unseen domains. At the same time, networks that are trained on large datasets and show greater robustness to distribution shifts tend to be highly overparameterized, exhibiting redundancy at various levels such as neurons, channels, or individual parameters. This overparameterization becomes a challenge in resource-constrained environments and calls for better understanding and more efficient management of network capacity. In this context, the recently proposed diffused redundancy hypothesis suggests that predictive information in a neural network layer is spread across its neurons in such a way that even randomly selected subsets can approximate the full layer’s performance. This study investigates this hypothesis by selecting random subsets of neurons from the final hidden layer of a pretrained network and evaluating their effectiveness on two domain generalization datasets. Additionally, another form of diffused redundancy is explored by randomly zeroing out some gradients during training, effectively freezing a random subset of parameters. The experiments confirm the presence of diffused redundancy among neurons and show that, with proper learning rate adjustments, it is possible to retain competitive performance using only a small fraction of neurons and updating only a limited number of parameters. For example, across all experiments, selecting only 5% of the neurons and training just 10% of the parameters resulted in an accuracy drop of only about 3% compared to full network training. These insights could pave the way for new approaches that harness network redundancy to reduce model size and training cost without significant loss in accuracy.
استاد راهنما :
محمدعلي خسروي فرد
استاد مشاور :
نيلوفر احمدي پور
استاد داور :
حامد نريماني , محمدرضا احمدزاده