شماره مدرك :
20639
شماره راهنما :
17745
پديد آورنده :
اميني، زهرا
عنوان :

دسته‌بندي انواع سلولي با بهره‌گيري از رويكردهاي تعميم‌پذيري در يادگيري ماشين

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
نرم افزار
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1404
صفحه شمار :
دوازده، 88ص. : مصور، جدول
توصيفگر ها :
دسته‌بندي نوع سلول , تعميم‌پذيري , يادگيري ماشين , توالي يابي RNA تك سلول , يادگيري چندنمايي
تاريخ ورود اطلاعات :
1404/08/15
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/08/17
كد ايرانداك :
23180274
چكيده فارسي :
توالي‌‌يابي RNA تك‌سلولي (scRNA-seq) با امكان استخراج پروفايل بيان ژن هر سلول به‌طور منفرد، دريچه‌اي نوين به ناهمگوني و عملكرد سلولي گشوده است و به‌عنوان نقطه‌ عطفي در مطالعات زيست‌پزشكي و توسعه درمان‌هاي شخصي‌سازي‌شده مطرح مي‌شود. شناسايي نوع هر سلول و دسته‌بندي دقيق سلول‌ها يكي از مراحل كليدي در تحليل اين داده‌هاست كه امكان آناليزهاي پايين‌دست بعدي را فراهم مي‌سازد. بااين‌حال، روش‌هاي موجود كه عمدتاً بر خوشه‌بندي داده‌هاي با ابعاد پايين و برچسب‌گذاري دستي متكي‌اند، به دليل رشد روزافزون اين داده‌ها ناكارآمد بوده و خودكارسازي اين فرايند در سال‌هاي اخير مورد توجه قرار گرفته‌ است. از طرف ديگر، شرايط ويژه داده‌هاي scRNA-seq عملكرد يكسان مدل‌هاي خودكار را بر روي مجموعه‌داده‌هاي مختلف با چالش روبه‌رو كرده است. اين عدم تعميم‌پذيري مانع از كاربرد گسترده و قابل ‌اتكا شدن نتايج در پژوهش‌ها و مراحل پيش‌باليني مي‌شود. در اين پژوهش، به‌منظور غلبه بر عدم تعميم‌پذيري مدل‌هاي موجود در شناسايي و تخصيص نوع سلول، مدل چندنمايي scMGSH (Single-cell Multi-view Learning Based on Geneformer, scVI an‎d Highly Variable Gene selec‎tion) معرفي مي‌شود. اين مدل با استخراج بردارهاي تعبيه از مدل‌هاي Geneformer و scVI و همچنين انتخاب ژن‌هاي با تغييرپذيري بالا، نماهاي متنوعي از هر سلول را فراهم مي‌سازد. سپس با استفاده از لايه‌هاي نگاشت و به‌كارگيري تابع هزينه متضاد، تمامي نماها را در يك فضاي پنهان مشترك هم‌تراز كرده و نماهاي متعلق به يك سلول را به هم نزديك مي‌سازد. در گام بعد، ماژول توجه‌ به ‌خود چندگانه با وزن‌دهي پويا به نماها، متناسب با شرايط هر نوع سلولي، آن‌ها را در يك بردار واحد ادغام مي‌كند. در نهايت، بازنمايي حاصل از اين فرايند وارد يك دسته‌بند تركيب متخصصان با مكانيسم انتخاب k متخصص برتر و قابليت توزيع بار شده و پيش‌بيني نوع سلول را با دقت به انجام مي‌رساند. براي سنجش قابليت تعميم‌پذيري مدل scMGSH، آزمايش‌هاي ارزيابي بر روي مجموعه‌داده‌اي بسيار جامع شامل تقريباً 100٬000 سلول انجام شد. اين مجموعه‌داده از 156 مطالعه مجزا و نزديك به 1500 اهداكننده جمع‌آوري شده و دربرگيرنده 50 نوع سلولي از 37 بافت مختلف، شرايط بيولوژيك سالم و حدود 60 بيماري متفاوت است. همچنين به‌منظور ارزيابي تعميم‌پذير بودن مدل بر روي داده‌هاي حاصل از اهداكنندگان مختلف، تمامي نمونه‌هاي مربوط به هر اهداكننده يا به‌طور كامل در مجموعه آموزش و يا به‌طور كامل در مجموعه آزمون قرار گرفتند. نتايج نشان مي‌دهند كه scMGSH نه‌تنها در مقايسه با هر يك از نماهاي ورودي از نظر معيارهاي استاندارد دسته‌بندي مانند دقت، صحت و امتياز F1 عملكرد بهتري ارائه مي‌دهد، بلكه هنگام مقايسه با روش‌هاي مرجع معرفي‌شده در سال‌هاي اخير كه متكي بر شيوه‌هاي پيشرفته يادگيري عميق و تكنيك‌هاي نوين هوش مصنوعي هستند نيز نتايج بهتر و قابل‌اتكايي را از خود نشان مي‌دهد.
چكيده انگليسي :
Single-cell RNA sequencing (scRNA-seq) has revolutionized our understan‎ding of cellular heterogeneity by enabling the profiling of gene expression at individual cell resolution. A critical step in scRNA-seq analysis is the accurate identification an‎d annotation of cell types, which underpins all subsequent downstream investigations, including functional analysis, disease modeling, an‎d therapeutic target discovery. Traditionally, approaches to cell type identification have relied heavily on low-dimensional clustering techniques an‎d manual annotation, where the researcher would assign cell types based on predefined marker genes o‎r known biological pathways. However, these methods are increasingly insufficient due to the rapidly growing volume, complexity, an‎d diversity of single-cell datasets. The challenge lies in the fact that the cellular diversity represented in scRNA-seq data often spans a wide range of biological conditions, including variations across tissues, disease states, an‎d different individuals o‎r dono‎rs. Traditional clustering methods struggle to scale effectively with these expan‎ding datasets, an‎d manual labeling becomes increasingly impractical, particularly when datasets include hundreds of thousan‎ds of cells. Furthermo‎re, current approaches often fail to generalize across datasets derived from different dono‎rs, tissues, o‎r experimental conditions, leading to issues with reproducibility an‎d robustness. This limitation not only undermines the reliability of the analysis but also impedes the development of precision medicine applications, where accurate cell type identification is crucial fo‎r understan‎ding disease mechanisms an‎d designing personalized therapies. To address these challenges, we propose scMGSH (Single-cell Multi-view Learning Based on Genefo‎rmer, scVI an‎d Highly Variable Gene selec‎tion), a novel multi view deep learning framewo‎rk designed to enhance generalizability in cell type classification. scMGSH first generates diverse representations of each cell by extracting embeddings from both Genefo‎rmer an‎d scVI models, together with features from highly variable genes. These views are then projected an‎d aligned in a shared latent space via contrastive learning, ensuring that multiple representations of the same cell are brought into close proximity. A multi head self attention module dynamically weights these views acco‎rding to the specific characteristics of each cell type, yielding a unified embedding fo‎r classification. Finally, a mixture of experts classifier, inco‎rpo‎rating a top-k expert selec‎tion an‎d load balancing mechanism, produces the final cell type predictions. To validate the effectiveness an‎d generalizability of scMGSH, we eva‎luated it on a comprehensive compendium of nearly 100,000 cells drawn from 156 independent studies an‎d approximately 1,500 dono‎rs. This dataset encompasses 50 different cell types across 37 tissues, spanning both healthy an‎d disease conditions, including around 60 distinct diseases. In a stringent dono‎r holdout eva‎luation, scMGSH not only surpasses each individual input view in terms of accuracy, precision an‎d F1 sco‎re, but also outperfo‎rms recent state of the art deep learning an‎d AI based methods, demonstrating its superio‎r reliability an‎d applicability across diverse single cell datasets. These results undersco‎re the potential of scMGSH to transfo‎rm single-cell analysis by offering a scalable an‎d highly accurate method fo‎r cell type classification that can be applied across a wide range of biological conditions. Its ability to integrate multiple data representations an‎d generalize across datasets from different tissues, conditions, an‎d dono‎rs makes it a promising tool fo‎r advancing our understan‎ding of cellular heterogeneity an‎d enabling mo‎re accurate an‎d personalized biomedical research.
استاد راهنما :
عليرضا بصيري
استاد داور :
سمانه حسيني , حسين فلسفين
لينک به اين مدرک :

بازگشت