شماره مدرك :
20903
شماره راهنما :
17960
پديد آورنده :
حق شناس حقيقي، نفيسه
عنوان :

غني سازي داده‌هاي سلول‌هاي سرطاني با استفاده از داده‌هاي ژن توسط مدل‌هاي مولد

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1404
صفحه شمار :
يازده، 96ص. :مصور، جدول، نمودار
توصيفگر ها :
شبكه مولد متخاصم , يادگيري متضاد , تشخيص نوع سلول
تاريخ ورود اطلاعات :
1404/11/13
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/11/13
كد ايرانداك :
23198725
چكيده فارسي :
سرطان يكي از مهم‌ترين چالش‌هاي سلامت جهاني است كه در اثر تغييرات ژنتيكي در الگوهاي بيان ژن به وجود مي‌آيد و رشد كنترل‌نشده سلول‌ها و تشكيل تومورهاي بدخيم را در پي دارد. پيشرفت فناوري‌هاي توالي‌يابي نسل جديد، به‌ويژه در سطح سلول‌تك، امكان شناسايي دقيق‌تر انواع سلول‌ها و تحليل عميق‌تر ريزمحيط تومور را فراهم كرده است؛ با اين حال، كمبود داده‌هاي باكيفيت، نويزهاي فني و عدم توازن در كلاس‌هاي داده، تحليل اين اطلاعات را با دشواري‌هاي جدي روبه‌رو كرده است. در اين پژوهش، روشي نوين مبتني بر شبكه‌هاي مولد تخاصمي (GAN) براي توليد داده‌هاي مصنوعي بيان ژن سلول‌تك ارائه مي‌شود. اين رويكرد با هدف جبران كمبود داده و حفظ حريم خصوصي بيماران طراحي شده و ضمن حفظ ويژگي‌هاي زيستي كليدي، سازگاري آماري خود را با داده‌هاي واقعي حفظ مي‌كند. داده‌هاي خام پس از پيش‌پردازش با روش Seurat و تبديل به قالب تصويري از طريق GenoMap، به گونه‌اي سازمان‌دهي شدند كه ساختار زيستي و روابط ژني ميان سلول‌ها در آن‌ها پايدار بماند. مدل پيشنهادي Contrastive IP3G از دو بخش اصلي تشكيل شده است: (1) بخش مولد و تميزدهنده مبتني بر GAN كه داده‌هاي مصنوعي بيان ژن را توليد كرده و توزيع آن‌ها را به داده‌هاي واقعي نزديك مي‌سازد؛ و (2) بخش يادگيري متضاد (Contrastive Learning) كه با تعريف جفت‌هاي مثبت و منفي از سلول‌ها، نمايش‌هاي پنهان را در فضاي نهفته به‌گونه‌اي سامان مي‌دهد كه سلول‌هاي مشابه به هم نزديك و سلول‌هاي متفاوت از هم دور شوند. تركيب اين دو سازوكار باعث مي‌شود مدل نه‌تنها ساختار آماري داده‌ها را بازسازي كند، بلكه مرزهاي زيستي ميان انواع سلول‌ها را نيز به‌صورت خودكار و بدون نظارت آشكار سازد. نتايج آزمايش‌ها نشان داد كه مدل Contrastive IP3G داده‌هاي مصنوعي‌اي با تطابق ساختاري و آماري چشمگير نسبت به داده‌هاي واقعي توليد مي‌كند و روابط همبستگي ژني را به‌خوبي بازتوليد مي‌نمايد. افزودن داده‌هاي مصنوعي توليدشده توسط اين مدل موجب بهبود عملكرد طبقه‌بندهاي SVM و CNN شد، به‌طوري‌كه نوسانات دقت به‌ترتيب به كمتر از 5٪ و 10٪ كاهش يافت. همچنين، ميانگين برتري مدل نسبت به نسخه پايه IP3G در معيارهاي KID و MMD به‌ترتيب حدود 38٪ و 60٪ برآورد شد.
چكيده انگليسي :
Cancer is one of the most significant global health challenges, arising from genetic alterations in gene expression patterns that lead to uncontrolled cell growth an‎d the formation of malignant tumors. Advances in next-generation sequencing technologies—especially at the single-cell level—have enabled more precise identification of cell types an‎d deeper analysis of the tumor microenvironment. However, the scarcity of high-quality data, technical noise, an‎d class imbalance continue to pose serious difficulties in analyzing this information. In this study, a novel method based on Generative Adversarial Networks is proposed for generating synthetic single-cell gene expression data. This approach is designed to compensate for data scarcity an‎d protect patient privacy while preserving key biological characteristics an‎d maintaining statistical consistency with real data. Raw data were preprocessed using the Seurat method an‎d transformed into image-like representations through GenoMap, organizing them in a way that retains biological structure an‎d gene–gene relationships among cells. The proposed model, Contrastive IP3G, consists of two main components: a GAN-based generator an‎d discriminator that produce synthetic gene expression data an‎d align their distribution with that of real data, an‎d a contrastive learning module that defines positive an‎d negative cell pairs to structure latent representations such that similar cells are mapped close together while dissimilar cells are pushed apart. The integration of these two mechanisms allows the model not only to reconstruct the statistical structure of the data but also to automatically an‎d unsupervisedly reveal the biological boundaries between different cell types. Experimental results demonstrate that Contrastive IP3G generates synthetic data with remarkable structural an‎d statistical similarity to real data, effectively reproducing gene–gene correlations. Incorporating the synthetic data produced by this model enhanced the performance of SVM an‎d CNN classifiers, reducing accuracy fluctuations to less than 5% an‎d 10%, respectively. Moreover, the model outperformed the baseline IP3G by approximately 38% an‎d 60% in the KID an‎d MMD eva‎luation metrics, respectively.
استاد راهنما :
عبدالرضا ميرزايي
استاد مشاور :
محمدحسين منشئي , مهران صفاياني
استاد داور :
فرزانه شايق بروجني , سمانه حسيني
لينک به اين مدرک :

بازگشت