پديد آورنده :
حق شناس حقيقي، نفيسه
عنوان :
غني سازي دادههاي سلولهاي سرطاني با استفاده از دادههاي ژن توسط مدلهاي مولد
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
يازده، 96ص. :مصور، جدول، نمودار
توصيفگر ها :
شبكه مولد متخاصم , يادگيري متضاد , تشخيص نوع سلول
تاريخ ورود اطلاعات :
1404/11/13
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/11/13
چكيده فارسي :
سرطان يكي از مهمترين چالشهاي سلامت جهاني است كه در اثر تغييرات ژنتيكي در الگوهاي بيان ژن به وجود ميآيد و رشد كنترلنشده سلولها و تشكيل تومورهاي بدخيم را در پي دارد. پيشرفت فناوريهاي توالييابي نسل جديد، بهويژه در سطح سلولتك، امكان شناسايي دقيقتر انواع سلولها و تحليل عميقتر ريزمحيط تومور را فراهم كرده است؛ با اين حال، كمبود دادههاي باكيفيت، نويزهاي فني و عدم توازن در كلاسهاي داده، تحليل اين اطلاعات را با دشواريهاي جدي روبهرو كرده است.
در اين پژوهش، روشي نوين مبتني بر شبكههاي مولد تخاصمي (GAN) براي توليد دادههاي مصنوعي بيان ژن سلولتك ارائه ميشود. اين رويكرد با هدف جبران كمبود داده و حفظ حريم خصوصي بيماران طراحي شده و ضمن حفظ ويژگيهاي زيستي كليدي، سازگاري آماري خود را با دادههاي واقعي حفظ ميكند. دادههاي خام پس از پيشپردازش با روش Seurat و تبديل به قالب تصويري از طريق GenoMap، به گونهاي سازماندهي شدند كه ساختار زيستي و روابط ژني ميان سلولها در آنها پايدار بماند.
مدل پيشنهادي Contrastive IP3G از دو بخش اصلي تشكيل شده است:
(1) بخش مولد و تميزدهنده مبتني بر GAN كه دادههاي مصنوعي بيان ژن را توليد كرده و توزيع آنها را به دادههاي واقعي نزديك ميسازد؛ و
(2) بخش يادگيري متضاد (Contrastive Learning) كه با تعريف جفتهاي مثبت و منفي از سلولها، نمايشهاي پنهان را در فضاي نهفته بهگونهاي سامان ميدهد كه سلولهاي مشابه به هم نزديك و سلولهاي متفاوت از هم دور شوند.
تركيب اين دو سازوكار باعث ميشود مدل نهتنها ساختار آماري دادهها را بازسازي كند، بلكه مرزهاي زيستي ميان انواع سلولها را نيز بهصورت خودكار و بدون نظارت آشكار سازد.
نتايج آزمايشها نشان داد كه مدل Contrastive IP3G دادههاي مصنوعياي با تطابق ساختاري و آماري چشمگير نسبت به دادههاي واقعي توليد ميكند و روابط همبستگي ژني را بهخوبي بازتوليد مينمايد. افزودن دادههاي مصنوعي توليدشده توسط اين مدل موجب بهبود عملكرد طبقهبندهاي SVM و CNN شد، بهطوريكه نوسانات دقت بهترتيب به كمتر از 5٪ و 10٪ كاهش يافت. همچنين، ميانگين برتري مدل نسبت به نسخه پايه IP3G در معيارهاي KID و MMD بهترتيب حدود 38٪ و 60٪ برآورد شد.
چكيده انگليسي :
Cancer is one of the most significant global health challenges, arising from genetic alterations in gene expression patterns that lead to uncontrolled cell growth and the formation of malignant tumors. Advances in next-generation sequencing technologies—especially at the single-cell level—have enabled more precise identification of cell types and deeper analysis of the tumor microenvironment. However, the scarcity of high-quality data, technical noise, and class imbalance continue to pose serious difficulties in analyzing this information.
In this study, a novel method based on Generative Adversarial Networks is proposed for generating synthetic single-cell gene expression data. This approach is designed to compensate for data scarcity and protect patient privacy while preserving key biological characteristics and maintaining statistical consistency with real data. Raw data were preprocessed using the Seurat method and transformed into image-like representations through GenoMap, organizing them in a way that retains biological structure and gene–gene relationships among cells.
The proposed model, Contrastive IP3G, consists of two main components: a GAN-based generator and discriminator that produce synthetic gene expression data and align their distribution with that of real data, and a contrastive learning module that defines positive and negative cell pairs to structure latent representations such that similar cells are mapped close together while dissimilar cells are pushed apart.
The integration of these two mechanisms allows the model not only to reconstruct the statistical structure of the data but also to automatically and unsupervisedly reveal the biological boundaries between different cell types.
Experimental results demonstrate that Contrastive IP3G generates synthetic data with remarkable structural and statistical similarity to real data, effectively reproducing gene–gene correlations. Incorporating the synthetic data produced by this model enhanced the performance of SVM and CNN classifiers, reducing accuracy fluctuations to less than 5% and 10%, respectively. Moreover, the model outperformed the baseline IP3G by approximately 38% and 60% in the KID and MMD evaluation metrics, respectively.
استاد راهنما :
عبدالرضا ميرزايي
استاد مشاور :
محمدحسين منشئي , مهران صفاياني
استاد داور :
فرزانه شايق بروجني , سمانه حسيني