توصيفگر ها :
دستهبندي نوع سلول , تعميمپذيري , يادگيري ماشين , توالي يابي RNA تك سلول , يادگيري چندنمايي
چكيده فارسي :
توالييابي RNA تكسلولي (scRNA-seq) با امكان استخراج پروفايل بيان ژن هر سلول بهطور منفرد، دريچهاي نوين به ناهمگوني و عملكرد سلولي گشوده است و بهعنوان نقطه عطفي در مطالعات زيستپزشكي و توسعه درمانهاي شخصيسازيشده مطرح ميشود. شناسايي نوع هر سلول و دستهبندي دقيق سلولها يكي از مراحل كليدي در تحليل اين دادههاست كه امكان آناليزهاي پاييندست بعدي را فراهم ميسازد. بااينحال، روشهاي موجود كه عمدتاً بر خوشهبندي دادههاي با ابعاد پايين و برچسبگذاري دستي متكياند، به دليل رشد روزافزون اين دادهها ناكارآمد بوده و خودكارسازي اين فرايند در سالهاي اخير مورد توجه قرار گرفته است. از طرف ديگر، شرايط ويژه دادههاي scRNA-seq عملكرد يكسان مدلهاي خودكار را بر روي مجموعهدادههاي مختلف با چالش روبهرو كرده است. اين عدم تعميمپذيري مانع از كاربرد گسترده و قابل اتكا شدن نتايج در پژوهشها و مراحل پيشباليني ميشود. در اين پژوهش، بهمنظور غلبه بر عدم تعميمپذيري مدلهاي موجود در شناسايي و تخصيص نوع سلول، مدل چندنمايي scMGSH (Single-cell Multi-view Learning Based on Geneformer, scVI and Highly Variable Gene selection) معرفي ميشود. اين مدل با استخراج بردارهاي تعبيه از مدلهاي Geneformer و scVI و همچنين انتخاب ژنهاي با تغييرپذيري بالا، نماهاي متنوعي از هر سلول را فراهم ميسازد. سپس با استفاده از لايههاي نگاشت و بهكارگيري تابع هزينه متضاد، تمامي نماها را در يك فضاي پنهان مشترك همتراز كرده و نماهاي متعلق به يك سلول را به هم نزديك ميسازد. در گام بعد، ماژول توجه به خود چندگانه با وزندهي پويا به نماها، متناسب با شرايط هر نوع سلولي، آنها را در يك بردار واحد ادغام ميكند. در نهايت، بازنمايي حاصل از اين فرايند وارد يك دستهبند تركيب متخصصان با مكانيسم انتخاب k متخصص برتر و قابليت توزيع بار شده و پيشبيني نوع سلول را با دقت به انجام ميرساند. براي سنجش قابليت تعميمپذيري مدل scMGSH، آزمايشهاي ارزيابي بر روي مجموعهدادهاي بسيار جامع شامل تقريباً 100٬000 سلول انجام شد. اين مجموعهداده از 156 مطالعه مجزا و نزديك به 1500 اهداكننده جمعآوري شده و دربرگيرنده 50 نوع سلولي از 37 بافت مختلف، شرايط بيولوژيك سالم و حدود 60 بيماري متفاوت است. همچنين بهمنظور ارزيابي تعميمپذير بودن مدل بر روي دادههاي حاصل از اهداكنندگان مختلف، تمامي نمونههاي مربوط به هر اهداكننده يا بهطور كامل در مجموعه آموزش و يا بهطور كامل در مجموعه آزمون قرار گرفتند. نتايج نشان ميدهند كه scMGSH نهتنها در مقايسه با هر يك از نماهاي ورودي از نظر معيارهاي استاندارد دستهبندي مانند دقت، صحت و امتياز F1 عملكرد بهتري ارائه ميدهد، بلكه هنگام مقايسه با روشهاي مرجع معرفيشده در سالهاي اخير كه متكي بر شيوههاي پيشرفته يادگيري عميق و تكنيكهاي نوين هوش مصنوعي هستند نيز نتايج بهتر و قابلاتكايي را از خود نشان ميدهد.
چكيده انگليسي :
Single-cell RNA sequencing (scRNA-seq) has revolutionized our understanding of cellular heterogeneity by enabling the profiling of gene expression at individual cell resolution. A critical step in scRNA-seq analysis is the accurate identification and annotation of cell types, which underpins all subsequent downstream investigations, including functional analysis, disease modeling, and therapeutic target discovery. Traditionally, approaches to cell type identification have relied heavily on low-dimensional clustering techniques and manual annotation, where the researcher would assign cell types based on predefined marker genes or known biological pathways. However, these methods are increasingly insufficient due to the rapidly growing volume, complexity, and diversity of single-cell datasets. The challenge lies in the fact that the cellular diversity represented in scRNA-seq data often spans a wide range of biological conditions, including variations across tissues, disease states, and different individuals or donors. Traditional clustering methods struggle to scale effectively with these expanding datasets, and manual labeling becomes increasingly impractical, particularly when datasets include hundreds of thousands of cells. Furthermore, current approaches often fail to generalize across datasets derived from different donors, tissues, or experimental conditions, leading to issues with reproducibility and robustness. This limitation not only undermines the reliability of the analysis but also impedes the development of precision medicine applications, where accurate cell type identification is crucial for understanding disease mechanisms and designing personalized therapies.
To address these challenges, we propose scMGSH (Single-cell Multi-view Learning Based on Geneformer, scVI and Highly Variable Gene selection), a novel multi view deep learning framework designed to enhance generalizability in cell type classification. scMGSH first generates diverse representations of each cell by extracting embeddings from both Geneformer and scVI models, together with features from highly variable genes. These views are then projected and aligned in a shared latent space via contrastive learning, ensuring that multiple representations of the same cell are brought into close proximity. A multi head self attention module dynamically weights these views according to the specific characteristics of each cell type, yielding a unified embedding for classification. Finally, a mixture of experts classifier, incorporating a top-k expert selection and load balancing mechanism, produces the final cell type predictions. To validate the effectiveness and generalizability of scMGSH, we evaluated it on a comprehensive compendium of nearly 100,000 cells drawn from 156 independent studies and approximately 1,500 donors. This dataset encompasses 50 different cell types across 37 tissues, spanning both healthy and disease conditions, including around 60 distinct diseases. In a stringent donor holdout evaluation, scMGSH not only surpasses each individual input view in terms of accuracy, precision and F1 score, but also outperforms recent state of the art deep learning and AI based methods, demonstrating its superior reliability and applicability across diverse single cell datasets. These results underscore the potential of scMGSH to transform single-cell analysis by offering a scalable and highly accurate method for cell type classification that can be applied across a wide range of biological conditions. Its ability to integrate multiple data representations and generalize across datasets from different tissues, conditions, and donors makes it a promising tool for advancing our understanding of cellular heterogeneity and enabling more accurate and personalized biomedical research.