شماره مدرك :
17031
شماره راهنما :
1851 دكتري
پديد آورنده :
مجيري خوزاني، آرزو
عنوان :

تحليل تشخيص خطي در مسائل دسته بندي دودويي نامتوازن با ابعاد بالا

مقطع تحصيلي :
دكتري
گرايش تحصيلي :
آمار
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
نه، [113]ص، : مصور، جدول، نمودار
استاد راهنما :
علي زينل همداني، عباس خليلي
استاد مشاور :
افشين پرورده
توصيفگر ها :
دسته بندي دودويي , تحليل تشخيص خطي , نامتوازن , ابعاد بالا , تقسيم و تسخير , انتخاب ويژگي , سخت-آستانه اي , كلاس اقليت
استاد داور :
كسري عليشاهي، عادل محمدپور، محمدرضا احمدزاده
تاريخ ورود اطلاعات :
1400/10/19
كتابنامه :
كتابنامه
رشته تحصيلي :
آمار
دانشكده :
رياضي
تاريخ ويرايش اطلاعات :
1400/10/28
كد ايرانداك :
2791272
چكيده فارسي :
در مسائل دسته بندي دودويي، عدم توازن كلاس ها، شرايطي را مشخصمي كند كه حجم نمونه ي يك كلاس بسيار كوچك تر از كلاس ديگر است. اين شرايط اغلب ناشي از نادر بودن جمعيت مربوط به يك كلاس، يا به دليل فرايند جمع آوري داده ها و وجود داده هاي گمشده اتفاق مي افتد. نمونه هايي از مسأله ي دسته بندي نامتوازن را مي توان در بسياري از زمينه ها مانند پزشكي، صنعت، علوم اجتماعي و زيست شناسي يافت. ما در اين رساله رفتار يك روش دسته بندي شناخته شده، تحت و گونه هاي جديد معرفي شده ي اين روش را در ابعاد بالا، در مسائل دسته بندي (LDA) عنوان تحليل تشخيص خطي نامتوازن مورد بررسي دقيق قرار مي دهيم. ابتدا نشان مي دهيم نادر بودن مشاهدات مربوط به يك كلاس منسوب به به صورت مجانبي كلاس اقليت را فراموش كند، يعني LDA كلاس اقليت و بالا بودن بعد فضاي ويژگي، باعث مي شود باعث ايجاد ماكزيمم خطاي دسته بندي در كلاس اقليت مي شود. سپس شرايطي را به دست مي آوريم كه گونه هاي جديد در ابعاد بالا مي توانند در مسائل نامتوازن با افزايش حجم نمونه خواص مطلوبي را داشته باشند. علي رغم خواص LDA مجانبي مطلوبي كه براي اين روش ها به صورت نظري به دست مي آيد، شبيه سازي ها رفتار غيرمجانبي مطلوبي را براي اين روش ها در مسائل نامتوزان، به ويژه در حالتي كه قدرت تمايز (سيگنال) ضعيف باشد، نشان نمي دهند. به اين منظور روش دسته بندي جديدي را معرفي مي كنيم كه علاوه بر دارا بودن خواص مطلوب در نمونه هاي بزرگ، نسبت به بسياري از روش هاي دسته بندي در شبيه سازي ها و مطالعات نمونه-متناهي، در مسائل نامتوازن عملكرد قابل قبولي دارد. روش دسته بندي پيشنهادي برمبناي قاعده ي سخت-آستانه اي و روش تقسيم و تسخير حاصل مي شود. عملكرد روش معرفي شده، در مقايسه با روش هاي ديگر به كمك شبيه سازي ها و دو مجموعه داده ي واقعي مربوط به سرطان سينه و سرطان مغز استخوان مورد مطالعه قرار گرفته است.
چكيده انگليسي :
problems. Linear Discriminant Analysis (LDA) is a well-known classification technique that has been extensively studied in high-dimensional settings. [5], [16], and [48] showed that when the number of features is larger than the sample size, the LDA can perform as badly as a random guess. To deal with the curse of dimensionality in the LDA, several developments have been made over the last decade or so. For example, among others, new developments include the nearest shrunken centroids of [50], shrunken centroids regularized discriminant analysis of [23], features annealed independence rule of [16], sparse LDA of [48], penalized LDA of [53], regularized optimal affine discriminant of [17], multi-group sparse discriminant analysis of [21], pairwise sure independent screening of [42], and the ultra high-dimensional multiclass LDA of [33]. The general idea of these methods is to incorporate a feature selection strategy in the LDA so that the resulting classifier obtains certain optimality properties in the sense of misclassification rates. To the best of our knowledge, most of the existing developments of the LDA in high-dimensional problems focus on situations in which sizes of different classes in the training data are comparable. However, in applications such as clinical diagnosis [2], fraud detection [9], drug discovery [55], or equipment malfunction detection [44], classification tasks often suffer from a so-called class imbalance issue where, for example, in a binary problem one class (referred to as minority class) is heavily under-represented. This issue is due to either a data collection process or because one class is indeed rare in a population. In such situations, the minority class is of primary interest as it carries substantial information, and often has higher misclassification costs compared to the larger class, referred to as the majority class. For example, in a study of a certain rare disease, the cost of misclassifying a positive case is often higher than the cost of misclassifying a negative one [46]. In banking or telecommunication studies, few customers are voluntarily willing to terminate their contracts and leave their provider. In these applications, misclassification of a potential churner is more expensive than that of a non-churner for a provider [51]. Due to data scarcity in a minority class, conventional discriminant methods are often biased toward the majority class resulting in much higher misclassification rate for the minority class. This error dramatically increases in high-dimensional classification problems, as empirically shown by [7]. In this manuscript, we study imbalanced binary classification problems with the class sizes n2 << n1, where we refer to Class 1 with size n1 as the majority class, and Class 2 with size n2 as the minority class.
استاد راهنما :
علي زينل همداني، عباس خليلي
استاد مشاور :
افشين پرورده
استاد داور :
كسري عليشاهي، عادل محمدپور، محمدرضا احمدزاده
لينک به اين مدرک :

بازگشت