چكيده فارسي :
حجم دادههاي ذخيره شده در پايگاههاي داده به سرعت رو به افزايش است و اين حجم عظيم دادهها، شامل دانشي با ارزش، اما پنهان است و تحليل آنها ميتواند نقشي مؤثري در فرآيند تصميمگيري داشته باشد. با تحليل اين دادهها، اطلاعاتي به دست ميآيد كه ميتواند برنامهريزيهاي سازمان را بهبود بخشد. مسالهاي كه در اين زمينه وجود دارد حجم دادهها و پيچيدگي روابط ميان آنها است. هرچه حجم داده بيشتر و روابط ميان آنها پيچيدهتر باشد، دسترسي به اطلاعات نهفته در دادهها مشكلتر شده لذا نقش دادهكاوي، به عنوان يكي از روشهاي كشف دانش نمايانتر ميگردد. تاكنون تحقيقات زيادي در زمينه دادهكاوي در حوزهي سلامت انجام گرفته است، هم اكنون به دليل شرايطي كه بيماري كوويد-19 براي جهان به وجود آورده است، اهميت اين تحقيق را دو چندان ميكند. در اين تحقيق با مطالعه بر روي دنبالهي ژنوم اين ويروس، به طبقهبندي ويروسها و تشخيص اين ويروس از ميان ويروسهاي مشابه پرداخته ميشود. به دليل اينكه يك ويروس ميتواند دنبالهي ژنوم بلندي داشته باشد، مجموعهي داده داراي ابعاد بالا (31028 ويژگي) ميباشد. براي رفع اين مساله ابتدا به كاهش ابعاد مجموعه داده پرداخته ميشود، سپس با استفاده از روشهاي كلاسيك دادهكاوي از جمله درخت تصميمگيري ، جنگل تصادفي ، ماشين بردار پشتيبان ، نزديكترين همسايگي ، رگرسيون لجستيك ، بيز ساده ، رايگيري نرم و رايگيري سخت به طبقهبندي اين ويروسها پرداخته و جهت جلوگيري از اشتباه احتمالي در اين الگوريتمهاي طبقهبندي كنندهي واحد، يك الگوريتم مبتني بر رايگيري تركيبي با عنوان تكنيك استكينگ پيشنهاد ميشود. نتايج نشان ميدهد كه تكنيك استكينگ با دقت 91 درصد بيشترين و ماشين بردار پشتيبان با 54 درصد كمترين دقت را داراست. همچنين اين روش توانسته است ضعف عدم توازن دادهها را از بين ببرد.
چكيده انگليسي :
The volume of saving data in databases is rapidly increasing and this huge volume of data including valuable knowledge but yet concealed and analysis of it can have an effective role in decision-making processes. By analyzing these data, data can be obtained that can enhance the coordination of an organization. The problem in this field is that the volume of data and the complication of relations between them. If the volume of the data is bigger and the complication between their relations are more, accessing the concealed information in data is harder and hence the role of data mining as a method of discovering knowledge is becoming more obvious. Up to now, there has been a lot of researches in the field of data mining in the field of health. Today for the condition of Covid-19 disease in the world, the importance of research in this field has been doubled. In this research by studying the genome sequence of this virus, the classification of viruses and distinguishing this virus from others is investigated. Because this virus can have a long genome sequence the dataset has a big dimension (roughly 31028 characteristics). To cope with this problem first dimension reduction of the dataset is implemented. Afterward, using classic data mining methods such as decision tree, random forest, support vector machine, k-nearest neighbors, logistic regression, soft voting, and hard voting the classification of viruses has been done and to prevent probable mistakes in this algorithm of unit classification, an algorithm based on combine voting technic stacking is suggested. Results have shown that the stacking technique with 91 percent has the highest and the support vector machine with 54 percent has the lowest accuracy. Furthermore, this method could eliminate the weakness of unbalance data.