شماره راهنما :
2388 دكتري
پديد آورنده :
برهاني، نيلوفر
عنوان :
پيشبيني داروپذيري پروتئينها با استفاده از مدل ترنسفورمر مبتني بر توالي پروتئين و آنتولوژي ژن
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
يازده، 119ص. : مصور، جدول، نمودار
توصيفگر ها :
پيشبيني داروپذيري , كشف اهداف دارويي , بازنمايي پروتئين , شبكه عصبي عميق , مدل زباني بزرگ , آنتولوژي ژن
تاريخ ورود اطلاعات :
1404/07/16
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/07/19
چكيده فارسي :
امروزه كشف داروهاي جديد براي درمان بيماريها به عنوان يكي از چالشهاي علوم پزشكي و داروسازي مطرح است. اين فرآيند بسيار پرهزينه و زمانبر بوده و نرخ موفقيت پاييني دارد. يكي از دلايل اصلي اين ناكاميها، انتخاب نادرست اهداف دارويي در مراحل اوليه است. اهداف دارويي، پروتئينهايي هستند كه دارو با اتصال به آنها اثرات درماني مورد نظر را ايجاد ميكند. با افزايش توليد دادههاي زيستي، شناسايي پروتئينهاي دخيل در بيماريها آسانتر شده است. با اين حال، چالش اصلي در استفاده باليني اين است كه كدام يك از اين پروتئينها ميتواند به عنوان هدف دارويي مناسب انتخاب شود. شناسايي اهداف دارويي جديد به صورت يك مسئله طبقهبندي باينري مطرح شده است كه در آن، پروتئينها به دو دسته داروپذير و داروناپذير تفكيك ميشوند. بسياري از روشهاي محاسباتي كنوني به استخراج ويژگيهاي مبتني بر توالي پروتئين و بهكارگيري طبقهبندهاي يادگيري ماشين وابستهاند. اين روشها با چالشهايي همچون سوگيري، استخراج دستي ويژگيها، عدم تكرارپذيري و عدم دسترسي مواجه هستند كه كاركرد آنها را محدود ميكند. علاوه بر اين، در مطالعات محدودي از توالي با روشهاي يادگيري عميق استفاده شده كه عملكردشان به ندرت بهتر از روشهاي يادگيري ماشين بوده است. با توجه به اهميت ساختار سهبعدي پروتئين در عملكرد زيستي و اتصال دارو، در اين پژوهش براي نخستينبار نقش ساختار در كنار توالي و ويژگيهاي زيستي در پيشبيني داروپذيري بررسي شد. براي اين منظور، مدلسازي ساختار با استفاده از رويكردهايي چون ابرنقاط، نقشه تعاملات و شبكههاي عصبي گراف بهكار گرفته شد. مقايسهها نشان دادند كه روشهاي مبتني بر توالي، بهويژه با بهرهگيري از بازنماييهاي مدلهاي پيشآموزشديده BERT و ESM-2، عملكرد بهتر و مؤثرتري نسبت به روشهاي مبتني بر ساختار دارند. اين نتايج نشان ميدهد كه اطلاعات ساختاري پروتئينها در توالي آنها نيز بازتاب يافته است و از آنجا كه استخراج اين اطلاعات از توالي، كه در دسترستر از دادههاي ساختاري است، سادهتر و كارآمدتر است، بهرهگيري از توالي در پيشبيني داروپذيري مزيت بيشتري دارد.در نهايت، براي ارتقا در پيشبيني داروپذيري، روشي نوين با نام DrugTar پيشنهاد شده است. اين روش، با ادغام مؤثر بازنماييهاي توالي مدل پيشآموزشديده ESM-2 و آنتولوژيهاي ژن و بهرهگيري از يك شبكه عصبي عميق، عملكرد مطلوبي را به نمايش گذاشته است. در اين روش، براي نخستينبار از آنتولوژيهاي ژن بهعنوان يكي از ويژگيهاي كليدي استفاده شده است. همچنين، بهكارگيري تكنيك انتخاب ويژگي مبتني بر SVM از بيشبرازش جلوگيري كرده و موجب شده DrugTar در اعتبارسنجي متقابل، به ميانگين 94/0 در هر دو شاخص AUC و AUPRC دست يابد و در عين حال توافق عالي و همبستگي بالايي با استاندارد طلايي نشان دهد. افزون بر اين، كاليبراسيون خوب، عملكرد مستقل نسبت به نمونههاي منفي و توانايي در شناسايي اهداف مرتبط با هر دو گروه داروهاي كوچكمولكول و بيوتكنولوژيكي، از ديگر نقاط قوت DrugTar بهشمار ميآيد. ارزيابيهاي گسترده در چندين مجموعه داده و برتري نسبت به ساير مدلهاي پيشرفته نيز اعتبار اين روش را بيش از پيش تقويت ميكند. بررسي پيشبينيهاي برتر اين روش نشان ميدهد كه DrugTar نه تنها در شبيهسازيها، بلكه در عمل نيز ميتواند در پيشبيني اهداف دارويي و تسهيل فرايند كشف دارو كاربردي باشد.
چكيده انگليسي :
Target discovery is crucial in drug development, especially for complex chronic diseases. Recent advances in high-throughput technologies and the explosion of biomedical data have highlighted the potential of computational druggability prediction methods. However, most current methods rely on sequence-based features with machine learning, which often face challenges related to hand-crafted features, reproducibility, and accessibility. Moreover, the potential of raw sequence and protein structure has not been fully investigated. Here, we leveraged both protein sequence and structure using deep learning techniques, revealing that protein sequence, especially pre-trained embeddings, is more informative than protein structure. Next, we developed DrugTar, a high-performance deep learning algorithm integrating sequence embeddings from the ESM-2 pre-trained protein language model with gene ontologies to predict druggability. DrugTar achieved areas under the curve and precision–recall curve values of 0.94, outperforming state-of-the-art methods. In conclusion, DrugTar streamlines target discovery as a bottleneck in developing novel therapeutics.
استاد راهنما :
ايمان ايزدي نجف آبادي
استاد داور :
حميدرضا مراتب , حميدرضا مراتب , جعفر قيصري