توصيفگر ها :
نمايه سازي ديجيتال بيان ژن , تصوير اسلايد كامل , يادگيري عميق , GAT-Mamba
چكيده فارسي :
پروفايل بيان ژن يكي از منابع كليدي در مطالعات زيستپزشكي بهشمار ميآيد و نقشي اساسي در تشخيص و تعيين زيرنوع سرطان، انتخاب نشانگرهاي زيستي و پايش اثربخشي درمان ايفا ميكند. با اين حال، استخراج آن مستلزم انجام آزمايشهاي پرهزينه و زمانبر است. در مقابل، تصاوير آسيب شناسي ديجيتال حاصل از نمونهبرداري بافتي يا مايعات بدن، اطلاعات ارزشمندي درباره ساختار بافت و وضعيت بيماري ارائه ميدهند و از لحاظ زماني و اقتصادي دسترسپذيرتر هستند. پيشرفتهاي اخير در حوزه هوش مصنوعي، بهويژه يادگيري عميق، امكان تحليل دادههاي پيچيده و چندوجهي نظير تصوير و متن را فراهم ساخته و مسيرهايي نوين براي تبديل دادههاي ارزانتر به دادههاي زيستي پرهزينه گشوده است. از اينرو، استفاده از هوش مصنوعي براي پيشبيني دادههاي زيستي مانند بيان ژن، بر پايه دادههاي آساندسترستر همچون تصاوير آسيب شناسي، به يك حوزه پژوهشي نويدبخش تبديل شده است.
با توجه به اين پيشرفتها، يكي از راهكارهاي مؤثر براي كاهش هزينهها و تأخير در دسترسي به دادههاي پزشكي، توسعه مدلهايي براي تبديل مؤثر و دقيق دادههاي موجود به يكديگر است. چنانچه بتوان از دادهاي سريعتر و ارزانتر، دادهاي پرهزينه و دشوار را بهدست آورد، دسترسي به آن داده دشوار عملاً تسهيل ميشود. در سالهاي اخير، مدلهاي پيشرفته هوش مصنوعي قادر شدهاند تصاوير حجيم آسيب شناسي را با دقت و اثربخشي بالا پردازش كنند كه اين امر نويدبخش تحولات چشمگير در اين حوزه است.
پژوهش حاضر با عنوان 3GCS: GAT-Mamba based Genomap Generation from Cancer Slides با هدف پيشبيني دادههاي بيان ژن متناظر تصاوير آسيب شناسي ديجيتال انجام شده است. براي دستيابي به اين هدف، از تركيبي از مدلهاي پيشرفته هوش مصنوعي شامل شبكههاي گرافي، معماري مامبا، شبكههاي بنيادين تصويري، لايههاي كاملاً متصل و روشهاي آماري استفاده شده است. در بخش استخراج ويژگي، ساختاري مبتني بر معماري GAT-Mamba، كه تلفيقي از شبكههاي گراف توجهي، معماري مامبا و مدلهاي تصويري بنيادين است، بهعنوان پايه اصلي انتخاب و با تغييراتي جهت تطبيق با مسئله، بهكار گرفته شده است. پس از استخراج ويژگيها، با بهرهگيري از لايههاي كاملاً متصل، پيشبيني دادههاي بيان ژن انجام شده است. بهمنظور بهبود عملكرد مدل و پاسخ به چالشهاي مربوط به حجم بالاي دادههاي تصويري و محدوديت اندازه دادهها، از تكنيكهايي مانند انتخاب ژنهاي پرتغيير (با انتخاب 1024 ژن با بيشترين واريانس)، الگوريتم ژنومپ و روشهاي جلوگيري از بيش برازش مانند منتظمسازي و dropout بهره گرفته شده است. علاوه بر اين، 3GCS با رويكردي متفاوت نسبت به مدلهاي پيشين همچون HE2RNA، tRNAsformer و SEQUOIA طراحي شد. در حالي كه روشهاي قبلي مسئله را به صورت يك رگرسيون مستقيم براي پيشبيني مقادير عددي بيان ژن مدلسازي ميكردند، 3GCS با تبديل آن به يك مسئله مولد تصوير به تصوير، ابعاد خروجي را كاهش داده و روابط ميان ژنها را در قالب ژنومپ حفظ كرد.
در نهايت، مدل توسعهيافته موفق شد دادههاي نرمالشده بيان ژن با ميانگين صفر و انحراف معيار يك را با خطايي معادل 0.014 پيشبيني كند كه اين مقدار، بيانگر خطايي در حدود يك درصد انحراف معيار بوده و عمدتاً ناشي از دادههاي پرت است. براي ارزيابي كيفيتر، دادههاي پيشبينيشده بهجاي مقادير واقعي در تحليلهاي ثانويه مانند تعيين نوع بافت، سالم يا ناسالم بودن آن، نوع بيماري، سن بيمار و ساير فاكتورها مورد استفاده قرار گرفتند. نتايج نشان داد كه مدل پيشنهادي عملكرد قابل قبولي داشته و در برخي موارد، دادههاي مصنوعي توليدشده دقت بالاتري نسبت به دادههاي واقعي ارائه دادهاند. همچنين تحليلهاي نهايي با استفاده از خودرمزنگارها (Autoencoders) نيز كيفيت مناسب دادههاي توليدشده را تأييد كردهاند. بر اين اساس، پژوهش 3GCS روشي مؤثر براي استخراج دادههاي بيان ژن از تصاوير آسيب شناسي ديجيتال با كيفيت مطلوب ارائه ميدهد.
چكيده انگليسي :
Gene expression profiling is a fundamental tool in biomedical research, essential for cancer diagnosis and subtyping, biomarker selection, and treatment monitoring. However, obtaining gene expression data typically requires costly and time-consuming laboratory procedures. In contrast, digital pathology images (derived from tissue or fluid biopsies) offer accessible and cost-effective sources of rich morphological and diagnostic information. Recent advancements in artificial intelligence (AI), particularly in deep learning, have enabled the analysis of complex multimodal data such as images and gene expression profiles, opening promising avenues for inferring high-cost biological data from more readily available sources.
This study introduces 3GCS (GAT-Mamba based Genomap Generation from Cancer Slides), a novel AI-driven framework designed to predict normalized gene expression values directly from digital pathology images. The 3GCS architecture leverages a combination of advanced neural components, including graph attention networks, the Mamba sequence modeling framework, vision foundation models, fully connected layers, and statistical techniques. Specifically, the feature extraction module integrates a modified GAT-Mamba structure, combining attention-based graph learning with Mamba and image encoders. These extracted features are then passed through fully connected layers to predict gene expression.
Unlike prior approaches such as HE2RNA, tRNAsformer, and SEQUOIA, which framed the task as a direct regression problem to predict numerical gene expression values, 3GCS reformulates it as an image-to-image generative task. This design choice reduces output dimensionality while preserving inter-gene relationships in the form of a genomap representation.
To address the challenges posed by large image sizes and limited data availability, the pipeline incorporates several optimization strategies. The gene expression matrix is preprocessed by selecting 1,024 high-variance genes, followed by the application of the Genomap algorithm for spatial representation. Techniques such as dropout regularization are applied to enhance generalizability and prevent overfitting.
The 3GCS model successfully predicts normalized gene expression values (with zero mean and unit variance) with a mean squared error of approximately 0.01, corresponding to just 1% of the standard deviation-primarily attributable to outliers. For qualitative evaluation, the predicted data were substituted in downstream biomedical tasks such as tissue classification, health status assessment, disease type inference, and patient age estimation. In several cases, the synthetic gene expression data even outperformed the real data in predictive accuracy. Additional analyses using autoencoders further validated the structural fidelity of the generated profiles.
In conclusion, 3GCS demonstrates that high-quality gene expression profiles can be accurately inferred from digital pathology images, offering a scalable, cost-efficient, and biologically meaningful alternative to conventional molecular profiling techniques. These results highlight the potential of AI to transform computational pathology and advance precision medicine.