شماره مدرك :
17232
شماره راهنما :
15139
پديد آورنده :
سعيدپور، زهرا
عنوان :

ارائه مدلي جهت طبقه‌بندي انواع مختلف ويروس كرونا و تشخيص سارس كويد از روي دنباله‌ي ژنوم با استفاده از تكنيك‌هاي داده‌كاوي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
بهينه سازي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
چهارده، 95ص. : مصور، جدول، نمودار
استاد راهنما :
غلامعلي رئيسي اردلي
توصيفگر ها :
داده‌كاوي در سلامت , بيان ژني ويروس كرونا , راي‌گيري تركيبي
استاد داور :
مهدي مهنام، زينب مالكي
تاريخ ورود اطلاعات :
1400/11/20
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي صنايع
دانشكده :
مهندسي صنايع و سيستم ها
تاريخ ويرايش اطلاعات :
1400/11/20
كد ايرانداك :
2797171
چكيده فارسي :
حجم داده‌هاي ذخيره شده در پايگاه‌هاي داده به سرعت رو به افزايش است و اين حجم عظيم داده‌ها، شامل دانشي با ارزش، اما پنهان است و تحليل ‌آن‌ها مي‌تواند نقشي مؤثري در فرآيند تصميم‌گيري داشته باشد. با تحليل اين داده‌ها، اطلاعاتي به دست مي‌آيد كه مي‌تواند برنامه‌ريزي‌هاي سازمان را بهبود بخشد. مساله‌اي كه در اين زمينه وجود دارد حجم داده‌ها و پيچيدگي روابط ميان ‌آن‌ها است. هرچه حجم داده بيشتر و روابط ميان ‌آن‌ها پيچيده‌تر باشد، دسترسي به اطلاعات نهفته در داده‌ها مشكل‌تر شده لذا نقش داده‌كاوي، به عنوان يكي از روش‌هاي كشف دانش نمايان‌تر مي‌گردد. تاكنون تحقيقات زيادي در زمينه داده‌كاوي در حوزه‌ي سلامت انجام گرفته است، هم اكنون به دليل شرايطي كه بيماري كوويد-19 براي جهان به وجود آورده است، اهميت اين تحقيق را دو چندان مي‌كند. در اين تحقيق با مطالعه بر روي دنباله‌ي ژنوم اين ويروس، به طبقه‌بندي ويروس‌ها و تشخيص اين ويروس از ميان ويروس‌هاي مشابه پرداخته مي‌شود. به دليل اين‌كه يك ويروس مي‌تواند دنباله‌ي ژنوم بلندي داشته باشد، مجموعه‌ي داده داراي ابعاد بالا (31028 ويژگي) مي‌باشد. براي رفع اين مساله ابتدا به كاهش ابعاد مجموعه داده پرداخته مي‌شود، سپس با استفاده از روش‌هاي كلاسيك داده‌كاوي از جمله درخت تصميم‌گيري ، جنگل تصادفي ، ماشين بردار پشتيبان ، نزديك‌ترين همسايگي ، رگرسيون لجستيك ، بيز ساده ، راي‌گيري نرم و راي‌گيري سخت به طبقه‌بندي اين ويروس‌ها پرداخته و جهت جلوگيري از اشتباه احتمالي در اين الگوريتم‌هاي طبقه‌بندي كننده‌ي واحد، يك الگوريتم مبتني بر راي‌گيري تركيبي با عنوان تكنيك استكينگ پيشنهاد مي‌شود. نتايج نشان مي‌دهد كه تكنيك استكينگ با دقت 91 درصد بيشترين و ماشين بردار پشتيبان با 54 درصد كمترين دقت را داراست. هم‌چنين اين روش توانسته است ضعف عدم توازن داده‌ها را از بين ببرد.
چكيده انگليسي :
The volume of saving data in databases is rapidly increasing and this huge volume of data including valuable knowledge but yet concealed and analysis of it can have an effective role in decision-making processes. By analyzing these data, data can be obtained that can enhance the coordination of an organization. The problem in this field is that the volume of data and the complication of relations between them. If the volume of the data is bigger and the complication between their relations are more, accessing the concealed information in data is harder and hence the role of data mining as a method of discovering knowledge is becoming more obvious. Up to now, there has been a lot of researches in the field of data mining in the field of health. Today for the condition of Covid-19 disease in the world, the importance of research in this field has been doubled. In this research by studying the genome sequence of this virus, the classification of viruses and distinguishing this virus from others is investigated. Because this virus can have a long genome sequence the dataset has a big dimension (roughly 31028 characteristics). To cope with this problem first dimension reduction of the dataset is implemented. Afterward, using classic data mining methods such as decision tree, random forest, support vector machine, k-nearest neighbors, logistic regression, soft voting, and hard voting the classification of viruses has been done and to prevent probable mistakes in this algorithm of unit classification, an algorithm based on combine voting technic stacking is suggested. Results have shown that the stacking technique with 91 percent has the highest and the support vector machine with 54 percent has the lowest accuracy. Furthermore, this method could eliminate the weakness of unbalance data.
استاد راهنما :
غلامعلي رئيسي اردلي
استاد داور :
مهدي مهنام، زينب مالكي
لينک به اين مدرک :

بازگشت