توصيفگر ها :
كاهش ابعاد , انتخاب ويژگي , روش رو به جلو , روش رو به عقب , گروه بندي متغيرها , ضريب همبستگي جزئي
چكيده فارسي :
توسعه روزافزون پايگاههاي داده و سيستمهاي اطلاعاتي و همچنين استفاده از آنها در زمينههاي مختلف علمي براي مدلسازي و تصميمگيري، باعث شده است كه دادههاي بسياري در زمينههاي مختلف ثبت شوند. اگر از تمام دادههاي ارائه شده از سيستمهاي تحتمطالعه به طور همزمان استفاده شود، هزينه و زمان محاسبه به طور فزايندهاي افزايش مييابد. يكي از منطقيترين و كارآمدترين تكنيكها در چنين شرايطي استفاده از مهمترين و موثرترين دادهها و متغيرها است. در ادبيات مربوط به دادهها و كاهش ويژگيها، چندين روش مختلف پيشنهاد شده است كه ميتوان آنها را به طور كلي در دو طبقه اصلي استخراج ويژگي و انتخاب ويژگي طبقه بندي كرد. در روشهاي استخراج ويژگي، همه متغيرها حفظ مي¬شوند اما آنها با استفاده از يك تابع تبديل خطي يا غير خطي به فضاي كوچكتري تبديل ميشوند. در حالي كه در دسته روشهاي انتخاب ويژگي، فضاي متغيرها حفظ ميشوند اما تعداد متغيرها كاهش مييابد. تحليل رگرسيون يكي از پركاربردترين روشها در حوزهي تجزيه و تحليل دادههاي آماري است كه در آن از روشهاي كاهش ابعاد به روش تبديل خطي استفاده ميشود. روشهاي كاهش ابعاد جلورونده و عقبرونده از جمله روشهاي رايج در تحليل رگرسيون هستند. با اين حال، اين روشها با وجود مزايايي كه دارند، داراي معايبي نيز هستند كه ممكن است عملكرد آنها را در برخي شرايط خاص كاهش دهد. در اين روشها از معياري براي اولويتبندي متغيرها جهت افزودن و يا حذف آنها استفاده ميشود كه بدين منظور فقط رابطهي بين متغيرهاي مستقل و متغير وابسته در نظر گرفته ميشود. همچنين از ضريب همبستگي معمولي استفاده ميشود، كه در آن خطر از دست دادن متغيرهاي مناسب ميتواند زياد باشد. در اين مقاله، يك روش انتخاب ويژگي جديد به منظور غلبه بر محدوديتهاي ذكر شده در روشهاي جلورونده و عقبرونده پيشنهاد شده است. در مدل پيشنهادي، ابتدا دو معيار براي اولويتبندي و ارزيابي ورود و يا خروج متغيرها در فرايندهاي رو به جلو و روبهعقب در نظر گرفته ميشود. به اين ترتيب، ابتدا ماتريس همبستگي براي خوشهبندي سلسلهمراتبي متغيرها و سپس ضريب همبستگي جزئي براي تعيين اولويت متغيرها و خوشهها استفاده ميشود. سه مثال جهت انتخاب ويژگي به منظور ارزيابي عملكرد مدل پيشنهادي در مقايسه با روشهاي متداول در نظر گرفته شده است. نتايج تجربي نشان ميدهد كه روش پيشنهادي ميتواند نتايج دقيقتري نسبت به روشهاي متداول جلورونده و عقبرونده در همه مطالعات موردي ارائه دهد.
چكيده انگليسي :
In recent years, a lot of data in different fields has been recorded by increasing the development in databases and information systems, as well as using them in various scientific areas for modeling and decision-making purposes. Computational cost and time are increasingly increased if all of the provided data from the underlying systems are simultaneously used. One of the most reasonable and efficient techniques in such situations is to only use the most important and effective data and variables. In the literature, several different approaches have been proposed that can be generally categorized into two main categories of feature extraction and feature selection. In feature extraction approaches, all variables are preserved; nevertheless, they are converted to a smaller space by a linear or nonlinear conversion function. While in the feature selection class, the space of variables is preserved; however, the number of variables is reduced. Regression analysis is one of the most widely-used methods in the statistical and linear data analysis domain in which dimensional reduction is frequently used. Forward and backward dimensional reduction methods are among the most popular approaches in regression analysis. However, these methods, despite all their unique advantages, have some critical disadvantages that may decrease their performance in some specific situations. First, in these methods, a criterion is only used to prioritize variables for adding and/or removing, in which the relationship between independent variables and the dependent variable is only considered. Second, the ordinary correlation coefficient, in which the risk of losing appropriate variables is high, is applied. In this thesis, a new feature selection method is proposed in order to overcome the aforementioned limitations of the forward as well as backward methods. In the proposed model, first, two criteria are simultaneously considered for prioritization and evaluation of entering and/or exiting variables in the forward and backward processes. In this way, the correlation matrix is first used to hierarchically cluster variables, and then the partial correlation coefficient is used for determining the priority of variables and clusters. Three feature selection benchmarks are considered in order to evaluate the performance of the proposed model in comparison with the conventional forward and backward methods. Empirical results indicate that the proposed method can yield more accurate results than conventional forward and backward methods in all case studies.