شماره مدرك :
16916
شماره راهنما :
14999
پديد آورنده :
پريشاني، حسام
عنوان :

ارائه‌ يك روش تكرارشونده براي انتخاب متغير با استفاده از ضريب همبستگي جزئي و ماتريس همبستگي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
سيستم هاي كلان
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
ده، 67ص. : مصور، جدول، نمودار
استاد راهنما :
مهدي خاشعي
توصيفگر ها :
كاهش ابعاد , انتخاب ويژگي , روش رو به جلو , روش رو به عقب , گروه بندي متغيرها , ضريب همبستگي جزئي
استاد داور :
علي زينل همداني، فرشته پرورش
تاريخ ورود اطلاعات :
1400/10/01
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي صنايع
دانشكده :
مهندسي صنايع و سيستم ها
تاريخ ويرايش اطلاعات :
1400/10/01
كد ايرانداك :
2792594
چكيده فارسي :
توسعه روزافزون پايگاه‌هاي داده و سيستم‌هاي اطلاعاتي و همچنين استفاده از آن‌ها در زمينه‌هاي مختلف علمي براي مدل‌سازي و تصميم‌گيري‌، باعث شده است كه داده‌هاي بسياري در زمينه‌هاي مختلف ثبت شوند. اگر از تمام داده‌هاي ارائه شده از سيستم‌هاي تحت‌مطالعه به طور همزمان استفاده شود، هزينه و زمان محاسبه به طور فزاينده‌اي افزايش مي‌يابد. يكي از منطقي‌ترين و كارآمدترين تكنيك‌ها در چنين شرايطي استفاده از مهم‌ترين و موثرترين داده‌ها و متغيرها است. در ادبيات مربوط به داده‌ها و كاهش ويژگي‌ها، چندين روش مختلف پيشنهاد شده است كه مي‌توان آن‌ها را به طور كلي در دو طبقه اصلي استخراج ويژگي و انتخاب ويژگي طبقه بندي كرد. در روش‌هاي استخراج ويژگي، همه متغيرها حفظ مي¬شوند اما آن‌ها با استفاده از يك تابع تبديل خطي يا غير خطي به فضاي كوچكتري تبديل مي‌شوند. در حالي كه در دسته روش‌هاي انتخاب ويژگي، فضاي متغيرها حفظ مي‌شوند اما تعداد متغيرها كاهش مي‌يابد. تحليل رگرسيون يكي از پركاربردترين روش‌ها در حوزه‌ي تجزيه و تحليل داده‌هاي آماري است كه در آن از روش‌هاي كاهش ابعاد به روش تبديل خطي استفاده مي‌شود. روش‌هاي كاهش ابعاد جلورونده و عقب‌رونده از جمله روش‌هاي رايج در تحليل رگرسيون هستند. با اين حال، اين روش‌ها با وجود مزايايي كه دارند، داراي معايبي نيز هستند كه ممكن است عملكرد آن‌ها را در برخي شرايط خاص كاهش دهد. در اين روش‌ها از معياري براي اولويت‌بندي متغيرها جهت افزودن و يا حذف آن‌ها استفاده مي‌شود كه بدين منظور فقط رابطه‌ي بين متغيرهاي مستقل و متغير وابسته در نظر گرفته مي‌شود. همچنين از ضريب همبستگي معمولي استفاده مي‌شود، كه در آن خطر از دست دادن متغيرهاي مناسب مي‌تواند زياد باشد. در اين مقاله، يك روش انتخاب ويژگي جديد به منظور غلبه بر محدوديت‌هاي ذكر شده در روش‌هاي جلورونده و عقب‌رونده پيشنهاد شده است. در مدل پيشنهادي، ابتدا دو معيار براي اولويت‌بندي و ارزيابي ورود و يا خروج متغيرها در فرايندهاي رو به جلو و روبه‌عقب در نظر گرفته مي‌شود. به اين ترتيب، ابتدا ماتريس همبستگي براي خوشه‌بندي سلسله‌مراتبي متغيرها و سپس ضريب همبستگي جزئي براي تعيين اولويت متغيرها و خوشه‌ها استفاده مي‌شود. سه مثال جهت انتخاب ويژگي به منظور ارزيابي عملكرد مدل پيشنهادي در مقايسه با روش‌هاي متداول در نظر گرفته شده است. نتايج تجربي نشان مي‌دهد كه روش پيشنهادي مي‌تواند نتايج دقيق‌تري نسبت به روش‌هاي متداول ‌جلورونده و عقب‌رونده در همه مطالعات موردي ارائه دهد.
چكيده انگليسي :
In recent years, a lot of data in different fields has been recorded by increasing the development in databases and information systems, as well as using them in various scientific areas for modeling and decision-making purposes. Computational cost and time are increasingly increased if all of the provided data from the underlying systems are simultaneously used. One of the most reasonable and efficient techniques in such situations is to only use the most important and effective data and variables. In the literature, several different approaches have been proposed that can be generally categorized into two main categories of feature extraction and feature selection. In feature extraction approaches, all variables are preserved; nevertheless, they are converted to a smaller space by a linear or nonlinear conversion function. While in the feature selection class, the space of variables is preserved; however, the number of variables is reduced. Regression analysis is one of the most widely-used methods in the statistical and linear data analysis domain in which dimensional reduction is frequently used. Forward and backward dimensional reduction methods are among the most popular approaches in regression analysis. However, these methods, despite all their unique advantages, have some critical disadvantages that may decrease their performance in some specific situations. First, in these methods, a criterion is only used to prioritize variables for adding and/or removing, in which the relationship between independent variables and the dependent variable is only considered. Second, the ordinary correlation coefficient, in which the risk of losing appropriate variables is high, is applied. In this thesis, a new feature selection method is proposed in order to overcome the aforementioned limitations of the forward as well as backward methods. In the proposed model, first, two criteria are simultaneously considered for prioritization and eva‎luation of entering and/or exiting variables in the forward and backward processes. In this way, the correlation matrix is first used to hierarchically cluster variables, and then the partial correlation coefficient is used for determining the priority of variables and clusters. Three feature selection benchmarks are considered in order to eva‎luate the performance of the proposed model in comparison with the conventional forward and backward methods. Empirical results indicate that the proposed method can yield more accurate results than conventional forward and backward methods in all case studies.
استاد راهنما :
مهدي خاشعي
استاد داور :
علي زينل همداني، فرشته پرورش
لينک به اين مدرک :

بازگشت