چكيده فارسي :
بيماري سرطان يكي از مهلك ترين بيماري هايي است كه ساليانه موجب از دست رفتن جان هزاران نفر در سراسر جهان مي شود. يكي از عوامل اين بيماري، تغييرات ژنتيكي يا جهش هايي است كه در ژنوم سلول رخ مي دهد و باعث تبديل سلول نرمال به سلول سرطاني مي شود. تنوع جهش ها در ژنوم باعث به وجود آمدن انواع مختلفي از بيماري سرطان مي شود كه به آن فنوتايپ گفته مي شود. تنوع مختلف در فنوتايپ هاي بافت سرطاني و تعامل آنها با يكديگر، درمان اين بيماري را پيچيده تر مي سازد. امروزه با پيشرفت دستگاه هاي توالي سنج ژنوم، حجم بسيار زيادي از داده هاي مربوط به سرطان از جمله داده هاي بيان ژن، فنوتايپ و مراحل پيشرفت سرطان در اختيار محققين قرار گرفته شده است. چالش هايي از جمله تعداد بسيار زياد ژن، هزينه و زمان زياد اندازه گيري بيان ژن ها در آزمايشگاه، برچسب دهي داده هاي بيان ژن به همراه چالش هاي دقت تشخيص فنوتايپ هاي سرطاني، تشخيص فنوتايپ هاي جديد و ارتباط بين فنوتايپ و بيان ژن ها تحليل داده هاي بيولوژي را با چالش مواجه نموده است. مدل هاي مولد ابزاري براي حل چالش هاي داده بيان ژن سرطان هستند. مدل هاي مولد براي فهميدن زبان ژن ها و ايجاد نمونه هاي جديدي از بيان ژن استفاده مي شوند. مدل هاي مولد براي شبيه سازي داده بيماران، ايجاد پروفايل هاي جديد بيان ژن، تشخيص فنوتايپ هاي سرطاني و تعيين ژن هاي مهم استفاده مي شوند. ما در اين رساله پس از بررسي مدل هاي مولد مختلف، GANبراي حل چالش ارتباط بيان ژن و فنوتايپ در نظر گرفته ايم. مدل هاي GANبر اساس تئوري بازي ها بين دو بازيكن استوار هستند.در اين مدل ها بجاي ياد گرفتن مستقيم تابع چگالي توزيع داده، نمونه جديدي از داده توليد شده و تلاش مي شود نمونه هاي توليد شده شبيه به نمونه هاي واقعي گردد. در GANاز دو شبكه به نام مولد و تميز دهنده استفاده مي شود كه در حال انجام بازي كمينه بيشينه با يكديگر هستند. هدف مولد، توليد نمونه هايي از داده است كه با داده هاي اصلي شباهت زيادي داشته باشد. ورودي مولد، برداري از مقادير تصادفي است و خروجي آن، نمونه هاي ساختگي داده توليد شده خواهد بود. هدف تميز دهنده تمايز بين داده هاي واقعي و داده هاي توليد شده توسط مولد است. بيان ژن هاي يك بافت را در شرايط مختلف مي توان توسط مدل هاي مولد از جمله GANشبيه سازي نمود و پروفايل هاي ساختگي از بيان ژن هاي يك فنوتايپ توليد نمود.
در اين رساله به چالش هاي استفاده از GANاز جمله نمايش بيان ژن به صورت تصوير، حل مشكل همگرايي ، GANمشكل تشخيص فنوتايپ هاي سرطاني و تعيين فنوتايپ هاي جديد پرداخته مي شود. در اين راستا دو مدل مبتني بر GANبراي اولين بار براي ايجاد پروفايل بيان ژن ، تشخيص فنوتايپ و تعيين مراحل پيشرفت بيماري سرطان ارائه مي شود. در اين رساله، مدل بدون ناظر IP3Gبراي ايجاد بيان پروفايل بيان ژن و تشخيص فنوتايپ هاي سرطاني پيشنهاد شده است. همچنين مدل نيمه ناظر ssInfoGANبراي تشخيص مراحل پيشرفت بيماري ارائه مي شوند. مدل هاي ارائه شده نسبت به ساير روش هاي موجود از نتايج بهتري برخوردار هستند.
چكيده انگليسي :
Cancer is one of the most deadly diseases, killing thousands of people worldwide every year. One of the causes of this disease is genetic changes or mutations that occur in the genome of a cell, transforming a normal cell into a cancerous one. The variety of mutations in the genome leads to different types of cancer, which are referred to as phenotypes. The different variations in cancerous tissue
phenotypes and their interactions complicate the treatment of this disease. With the advancement of genome sequencing technology, a vast amount of data related to cancer, including gene expression data, phenotypes, and stages of cancer progression, has become available to researchers. Challenges such as the large number of genes, the high cost and time involved in measuring gene expression in the laboratory, the labeling of gene expression data, as well as the accuracy in diagnosing cancer phenotypes, detecting new phenotypes, and understanding the relationship between phenotype and gene expression, have made the analysis of biological data particularly challenging.
Generative models offer a tool to address the challenges of cancer gene expression data. These models are used to understand the language of genes and generate new patterns of gene expression.
They can simulate patient data, create new gene expression profiles, detect cancer phenotypes, and identify important genes. In this thesis, after examining various generative models, we focus on GANs
(Generative Adversarial Networks) to tackle the challenge of relating gene expression to phenotype. GAN models are based on game theory between two players. Instead of directly learning the
data distribution density function, they generate new data samples and attempt to make these samples similar to real ones. GANs use two networks called the generator and the discriminator, which play
a minimax game. The input of the generator is a vector of random values, and its output is dummy samples of generated data. The discriminator’s goal is to distinguish between real and generated data.
Generative models like GANs can simulate the gene expression of a tissue under different conditions and generate profiles of gene expression for a phenotype.
In this thesis, the challenges of using GANs, including representing gene expression as images, solving the problem of GAN convergence, detecting cancer phenotypes, and determining new phenotypes
are discussed. Two GAN-based models are presented for the first time to create gene expression profiles, detect phenotypes, and determine stages of cancer disease progression. The unsupervised
model IP3G is proposed to generate gene expression profiles and detect cancer phenotypes. Additionally, the semi-supervised model ssInfoGAN is introduced to diagnose stages of disease progression.
The proposed models yield better results than existing methods.