پديد آورنده :
خسروي، محمدرضا
عنوان :
ارائه يك روش يادگيري قوانين طبقهبندي جديد بر اساس رويكرد پيتسبورگ
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
هفت، 68ص. : مصور، جدول، نمودار
توصيفگر ها :
طبقهبندي , طبقهبندي مبتني بر قانون , گسستهسازي چند متغيره , انتخاب ويژگي
تاريخ ورود اطلاعات :
1402/05/24
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/05/25
چكيده فارسي :
دادهكاوي فرآيند كشف الگوها و دانش از حجم انبوهي از دادهها است. در بين تكنيكهاي متنوع دادهكاوي، طبقهبندي يكي از تكنيكهاي رايج آن به شمار ميرود. تاكنون روشهاي طبقهبندي زيادي معرفي شدهاند كه در بين آنها روشهاي طبقهبندي مبتني بر استخراج قوانين عموماً به دليل بازنمايي دانش اكتسابي آنها از دادههاي آموزشي، مورد توجه قرار ميگيرند. در اين روشها قوانين استخراج شده براي طبقهبندي، معمولاً به راحتي قابل تفسير هستند. تاكنون رويكردهاي مختلفي براي استخراج قوانين طبقهبندي ارائه شدهاند. در اين ميان گروهي از الگوريتمهاي طبقهبندي مبتني بر قانون، قوانين خود را به كمك الگوريتمهاي بهينهسازي فراابتكاري استخراج ميكنند. اين الگوريتمها را ميتوان در دو دسته مجزا قرار داد؛ دسته اول الگوريتمهاي مبتني بر رويكرد ميشيگان هستند كه در آنها هر عضو جمعيت معادل يك قانون است و دسته دوم الگوريتمهاي مبتني بر رويكرد پيتسبورگ هستند كه هر عضو جمعيت در آنها معادل يك طبقهبند بالقوه ميباشد. ما در اين پژوهش يك الگوريتم يادگيري قانون فراابتكاري مبتني بر رويكرد پيتسبورگ ارائه دادهايم؛ به گونهاي كه در كنار بهرهگيري از مزاياي اين رويكرد، كمتر تحت تأثير معايب آن قرار ميگيرد. الگوريتم پيشنهادي، بر اساس الگوريتم بهينهسازي فراابتكاري كلوني زنبورهاي مصنوعي (ABC) ارائه شده است. در اين الگوريتم، قوانين طبقهبند در نتيجهي يك فرآيند گسستهسازي چند متغيره استخراج ميشوند. و وظيفه الگوريتم بهينهسازي ABC هدايت فرآيند گسستهسازي ميباشد. بر اين اساس الگوريتم پيشنهادي نيازي به مرحله پيشپردازش براي گسستهسازي مقادير ويژگيهاي پيوسته ندارد. روش كلي الگوريتم پيشنهادي به اين صورت است كه براي هر ويژگي يك نقطه شكست را با در نظر گرفتن همبستگي بين ويژگيهاي مسئله به گونهاي انتخاب ميكند كه نقاط شكست، تا حد امكان فضاي مسئله را به خالصترين نواحي از نظر نحوه توزيع نمونههاي آموزشي در آنها افراز كنند. اين ساختار براي الگوريتم پيشنهادي موجب ميشود كه قوانين استخراج شده با هم همپوشاني نداشته باشند. همچنين اين امكان را به الگوريتم ميدهد كه در حين آموزش قوانين ويژگيهاي كم اهميت را ناديده گرفته و عمليات انتخاب ويژگي انجام دهد. ويژگيهاي حذف شده در هيچ يك از قوانين نهايي حضور ندارند بنابراين فرآيند انتخاب ويژگي منجر به كاهش طول قوانين و در نتيجه افزايش قابليت تفسيرپذيري آنها ميشود. همچنين الگوريتم از يك مرحله پسهرس خاص براي هرس قوانين نهايي استفاده ميكند كه با كاهش تعداد و طول قوانين، به افزايش تفسيرپذيري قوانين نهايي طبقهبند كمك ميكند. الگوريتم پيشنهادي روي 31 مجموعه داده از مخزن يادگيري ماشين UCI با 16 الگوريتم طبقهبندي ديگر مقايسه شده است. نتايج حاصل از آزمايشها گوياي عملكرد اميدوار كننده الگوريتم پيشنهادي در مقايسه با ساير طبقهبندهاي مورد استفاده در بخش آزمايشها ميباشد.
چكيده انگليسي :
Data mining is the process of discovering patterns and knowledge from large amounts of data. Among various data mining techniques, classification is one of its common techniques. So far, many classification methods have been introduced. Among them, the classification methods based on rule extraction are generally of interest due to their representation of acquired knowledge from training data. In these methods, the extracted rules for classification are usually easy to interpret. So far, various approaches have been proposed to extract classification rules. Meanwhile, a group of rule-based classification algorithms extract their rules with the help of meta-heuristic optimization algorithms. These algorithms can be placed in two categories. The first group are algorithms based on the Michigan approach, in which each population individual is equivalent to a rule, and the second group are algorithms based on the Pittsburgh approach, in which each population individual is equivalent to a potential classifier. In this research, we have presented a meta-heuristic rule learning algorithm based on the Pittsburgh approach; In such a way that it uses the advantages of this approach and is less affected by its disadvantages. The proposed algorithm is based on the artificial bee colony (ABC) meta-heuristic optimization algorithm. In this algorithm, classification rules are extracted as a result of a multivariate discretization process. And the task of ABC optimization algorithm is to guide the discretization process. Based on this, the proposed algorithm does not need a pre-processing stage to discretize the values of continuous features. The general method of the proposed algorithm is to select a cut point for each feature by considering the correlation between the problem features in such a way that the cut points divide the problem space into the purest areas as much as possible in terms of how the training instances are distributed in them. This structure for the proposed algorithm ensures that the extracted rules do not overlap. It also allows the algorithm to ignore the less important features while learning the rules and perform the feature selection operation. The removed features are not present in any of the final rules, so the feature selection process leads to reducing the length of the rules and thus increasing their interpretability. Also, the algorithm uses a special post-pruning step for pruning the final rules, which helps to increase the interpretability of the classifier final rules by reducing the number and length of the rules. The proposed algorithm is compared with 16 other classification algorithms on 31 datasets from the UCI machine learning repository. The experimental results show the promising performance of the proposed algorithm compared to other classifiers used in the experiments.
استاد راهنما :
عليرضا بصيري
استاد داور :
ناصر قديري مدرس , حسين فلسفين