شماره مدرك
21045
شماره راهنما
18055
پديد آورنده
واقعي، عليرضا
عنوان
بهبود فرانمونهبرداري بهمنظور افزايش دقت طبقهبندي دادههاي نامتوازن
مقطع تحصيلي
كارشناسي ارشد
گرايش تحصيلي
هوش مصنوعي و رباتيك
محل تحصيل
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع
1404
صفحه شمار
دوازده، 109ص. : مصور، جدول، نمودار
توصيفگر ها
طبقهبندي دادههاي نامتوازن , نواحي ناشناخته داخلي , نواحي ناشناخته خارجي , دادهكاوي , افزايش ابعاد , k-Dim Classifier
تاريخ ورود اطلاعات
1405/02/25
كتابنامه
كتابنامه
رشته تحصيلي
مهندسي كامپويتر
دانشكده
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات
1405/02/26
كد ايرانداك
23221417
چكيده فارسي
در اين پاياننامه به مسئلهاي كمتر مورد توجه قرار گرفته در حوزهي يادگيري ماشين، يعني نواحي ناشناخته در مجموعهدادههاي نامتوازن پرداخته ميشود. مجموعهدادهي نامتوازن، مجموعهاي است كه در آن توزيع نمونهها ميان كلاسها نامتقارن بوده و يك يا چند كلاس داراي تعداد نمونههاي بهمراتب كمتري نسبت به ساير كلاسها هستند. در چنين مجموعهدادههايي، نواحي ناشناخته يعني نواحياي از فضاي ويژگي كه تعداد نمونههاي آموزشي در آن بسيار اندك يا حتي صفر است اهميت ويژهاي پيدا ميكنند. مديريت بهينه يا توليد هدفمند نمونههاي مصنوعي در اين نواحي ميتواند نقش مؤثري در بهبود عملكرد مدلهاي يادگيري ماشين در شناسايي كلاسهاي كمنمونه ايفا كند. در اين راستا، در اين پژوهش دو الگوريتم جديد با عنوانهاي فرانمونهبرداري ابرسيلندري و K-Dim Classifier معرفي ميشوند. الگوريتم نخست، با رسم ابرسيلندرهايي ميان خوشههاي شناختهشده در فضاي ويژگي، ميكوشد نواحي ناشناخته را پوشش داده و از طريق توليد نمونههاي مصنوعي درون اين ابرسيلندرها، كارايي مدلهاي يادگيري ماشين را در شناسايي كلاسهاي كمنمونه افزايش دهد. اين روش بهويژه براي مسائل دوكلاسه كارايي مناسبي از خود نشان داده است. الگوريتم دوم، يعني K-Dim Classifier، كه طبقهبندي شامل دو زيرشبكهي طبقهبند و رمزگذار است بر پايهي افزايش ابعاد فضاي ويژگي طراحي شده است تا بتواند نواحي ناشناخته در فضاي جديد را بهشكل مؤثرتري مديريت كند. در اين الگوريتم، زيرشبكهي رمزگذار نواحي ناشناخته را با توجه به شباهت به يكي از كلاسها، در فضاي افزايشيافته به آن كلاس نزديكتر ميكند و به اين ترتيب امكان مديريت هوشمندانهتر و دقيقتر اين نواحي فراهم ميگردد. افزون بر اين، زيرشبكهي طبقهبند در الگوريتم K-Dim Classifier به كمك تركيب ويژگيهاي اوليه و ويژگيهاي استخراج شده توسط رمزگذار آموزش ميبيند تا هم اطلاعات بيشتري در اختيار مدل قرار گيرد و هم مدل بتواند در اين فضاي جديد ميان نمونههاي واقعي و مصنوعي تمايز قائل شده و بدينوسيله نقش نمونههاي واقعي در تعيين مرز تصميم را تقويت كند. نتايج ارزيابيهاي انجامشده بر روي مجموعهدادههاي مختلف نشان ميدهد كه روش ابرسيلندري در بهبود شناسايي كلاسهاي كمنمونه در نواحي ناشناخته مؤثر بوده و موجب تغيير مرز تصميم به نفع اين كلاسها ميشود. همچنين، الگوريتم K-Dim Classifier در مقايسه با روشهاي متداول طبقهبندي از جمله شبكهي طبقهبند ساده، Random Forest، XGBoost، Gradient Boosting، AdaBoost ، و SVM با كرنل RBF عملكرد مطلوبتري در شناسايي نمونههاي كلاس كمنمونه از خود نشان داده است.
چكيده انگليسي
This thesis addresses a relatively underexplored problem in the field of machine learning, namely unknown regions in imbalanced datasets. An imbalanced dataset is defined as a dataset in which the distribution of samples across classes is asymmetric, such that one or more classes contain significantly fewer samples than the others. In such datasets, unknown regions that is, regions of the feature space with very few or even zero training samples become particularly important. Optimal handling of these regions or the targeted generation of synthetic samples within them can play a crucial role in improving the performance of machine learning models in identifying minority classes. In this regard, this research introduces two novel algorithms entitled hyper-cylinder based oversampling and K-Dim classifier. The first algorithm seeks to cover unknown regions by constructing hyper-cylinder structures between known clusters in the feature space and, through the generation of synthetic samples within these hyper-cylinders, to enhance the performance of machine learning models in recognizing minority classes. This method has demonstrated particularly effective performance in binary classification problems. The second algorithm, namely the K-Dim classifier, which consists of two subnetworks a classifier subnetwork and an encoder subnetwork is designed based on increasing the dimensionality of the feature space in order to manage unknown regions more effectively in the transformed space. In this algorithm, the encoder subnetwork maps unknown regions closer to one of the classes in the augmented space based on their similarity, thereby enabling more intelligent and precise handling of these regions. Furthermore, the classifier subnetwork in the K-Dim classifier is trained using a combination of the original features and the features extracted by the encoder, providing the model with richer information and enabling it to distinguish between real and synthetic samples in the new space. In this way, the influence of real samples in determining the decision boundary is reinforced.
The evaluation results obtained on various datasets indicate that the hyper-cylinder method is effective in improving the recognition of minority classes in unknown regions and leads to a shift of the decision boundary in favor of these classes. Moreover, the K-Dim Classifier demonstrates superior performance in identifying minority-class samples compared to conventional classification methods, including a simple classifier network, Random Forest, XGBoost, Gradient Boosting, AdaBoost, and SVM with an RBF kernel.
استاد راهنما
عليرضا بصيري
استاد داور
زينب مالكي , نيلوفر احمدي پور