پديد آورنده :
خسروي روزبهاني، علي
عنوان :
ارزيابي و بهبود نتيجه ي خوشه بندي ويژگي هاي سبك زندگي دانشجويان با استفاده از خودرمزنگار متغير
مقطع تحصيلي :
كارشناسي ارشد
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
يازده، 49ص.: مصور، جدول، نمودار
استاد راهنما :
الهام محمودزاده
توصيفگر ها :
مدل هاي توليدي , خودرمزنگار متغير , خوشه بندي , داده هاي دانشجويان , سبك زندگي , تحليل داده
استاد داور :
محمد رضا احمد زاده، عليرضا بصيري، سمانه حسيني
تاريخ ورود اطلاعات :
1401/05/22
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1401/05/22
چكيده فارسي :
مدلهاي توليدي يك روش يادگيري بدون نظارت در يادگيري ماشين هستند كه شامل كشف و يادگيري خودكار قوانين يا الگوهاي موجود در دادههاي ورودي مي باشد، به گونه اي كه بتوان از اين مدل براي توليد نمونه هاي جديدي استفاده كرد. مدل هاي توليدي دسته اي مهم از شبكه هاي عصبي عميق مي باشند كه هدف آن يادگيري تابع چگالي و توليد نمونه مشابه با داده اصلي است. خودرمزنگار متغير يكي از رويكردهاي مدل هاي توليدي است. خودرمزنگار متغير در اصل يك خودرمزنگار است كه توزيع رمزنگاري آن در طول آموزش منظم شده تا اطمينان حاصل شود كه فضاي پنهان آن داراي ويژگيهايي براي توليد داده توسط رمزگشا است. اين فضاي پنهان منظم اين امكان را مي دهد كه داده هاي توليد شده، به داده ي اصلي در حد ممكن مشابه باشد.
در اين مطالعه، داده هاي توليدشده توسط خودرمزنگار متغير را توسط هفت الگوريتم -kميانگين، -kميانه، فازي Cmeans، خوشه بندي تجمعي سلسهمراتبي، شيفت ميانگين، طيفي و DBSCAN خوشه بندي كرده و تاثير خودرمزنگار متغير را روي هر الگوريتم مورد بررسي قرار ميدهيم. مجموعه دادهاي كه در اين پژوهش استفاده شده، داده هاي دانشجويان دانشگاه صنعتي اصفهان مي باشد. اين داده ها، داده هاي كارنامه سلامت جسم دانشجويان دانشگاه صنعتي اصفهان است، كه هرساله دانشجويان ورودي جديد به عنوان پرسشنامه آن را پاسخ مي دهند. داده هايي كه در اين پژوهش وجود دارد، شامل اطلاعات جسمي، روحي، رفتاري، اطلاعات پزشكي و سوابق پزشكي خانوادگي فرد مي باشد. ما با استفاده از الگوريتم -kميانگين، براساس ويژگي هاي سبك زندگي، دانشجويان را خوشهبندي كرديم.
براي ارزيابي الگوريتم هاي خوشهبندي از شاخص ديويس بولدين و شاخص دون بهره برديم. با توجه به معيارهاي گفته شده، الگوريتمهاي -k ميانگين، فازي Cmeans، خوشه بندي سلسه مراتبي تجمعي و طيفي، داده هاي توليدشده از خودرمزنگار متغير را، در مقايسه با مجموعه داده ي اصلي دانشجويان به طرز مناسب تري خوشه بندي كردند. در پايان، با استفاده از الگوريتم -kميانگين سه خوشه بدست آمد، كه آن را با توجه به خصوصيات سبك زندگي دانشجويان تحليل كرديم. بديهي است، تحليل داده هاي دانشجويان مي تواند به مسئولان دانشگاه براي برنامه ريزي بهتر كمك كند.
چكيده انگليسي :
Generative models are unsupervised learning methods in machine learning that involves automatically discovering and
learning the rules or patterns in input data, so that this model can be used to generate new samples. Generative models are an
important set of deep neural networks aiming to learn the density function and generate a sample similar to the original data.
Variational autoencoder is one of the approaches of Generative models. Variational autoencoder is basically a autoencoder
whose encoding distribution is regulated during the training to be ensured that its latent space possesses the features in order
for data be generated by the decoder. This regular space allows the generated data to be similar to the original data as possible.
In this study, the data generated by the variational autoencoder are clustered by seven algorithms: K-Means, k-Modes, FuzzyCmeans, Agglomerative hierarchical clustering, Mean shift, Spectral clustering and DBSCAN. Additionally, the effect of
variational autoencoder on each algorithm was investigated. The data set used in the study is that of students of Isfahan
University of Technology. These data are those of the physical health record of the students of Isfahan University of Technology
which are answered by the new incoming students as questionnaires every year. The data of this study include the students’
physical, mental, behavioral and medical information and family medical records. Based on lifestyle features, we clustered the
students using the K-Means algorithm.
We applied the Davis Bouldin index and the Dunn index to evaluate clustering algorithms. According to the mentioned indexes,
the algorithms K-Means, Fuzzy-Cmeans, Agglomerative hierarchical clustering and spectral hierarchical clustering clustered
the data generated by the variational autoencoder more appropriately comparing with the students’ initial data set. Finally;
using the algorithm K-Means, three clusters were obtained analyzed based on the features of students’ lifestyles. Obviously,
analyzing student data can help university officials plan better.
استاد راهنما :
الهام محمودزاده
استاد داور :
محمد رضا احمد زاده، عليرضا بصيري، سمانه حسيني