شماره مدرك :
20526
شماره راهنما :
2388 دكتري
پديد آورنده :
برهاني، نيلوفر
عنوان :

پيش‌بيني داروپذيري پروتئين‌ها با استفاده از مدل ترنسفورمر مبتني بر توالي پروتئين و آنتولوژي ژن

مقطع تحصيلي :
دكتري
گرايش تحصيلي :
كنترل
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1404
صفحه شمار :
يازده، 119ص. : مصور، جدول، نمودار
توصيفگر ها :
پيش‌بيني داروپذيري , كشف اهداف دارويي , بازنمايي پروتئين , شبكه عصبي عميق , مدل زباني بزرگ , آنتولوژي ژن
تاريخ ورود اطلاعات :
1404/07/16
كتابنامه :
كتابنامه
رشته تحصيلي :
برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/07/19
كد ايرانداك :
23163871
چكيده فارسي :
امروزه كشف داروهاي جديد براي درمان بيماري‌ها به عنوان يكي از چالش‌هاي علوم پزشكي و داروسازي مطرح است. اين فرآيند بسيار پرهزينه و زمان‌بر بوده و نرخ موفقيت پاييني دارد. يكي از دلايل اصلي اين ناكامي‌ها، انتخاب نادرست اهداف دارويي در مراحل اوليه است. اهداف دارويي، پروتئين‌هايي هستند كه دارو با اتصال به آن‌ها اثرات درماني مورد نظر را ايجاد مي‌كند. با افزايش توليد داده‌هاي زيستي، شناسايي پروتئين‌هاي دخيل در بيماري‌ها آسان‌تر شده است. با اين حال، چالش اصلي در استفاده باليني اين است كه كدام يك از اين پروتئين‌ها مي‌تواند به عنوان هدف دارويي مناسب انتخاب شود. شناسايي اهداف دارويي جديد به صورت يك مسئله طبقه‌بندي باينري مطرح شده است كه در آن، پروتئين‌ها به دو دسته داروپذير و داروناپذير تفكيك مي‌شوند. بسياري از روش‌هاي محاسباتي كنوني به استخراج ويژگي‌هاي مبتني بر توالي پروتئين و به‌كارگيري طبقه‌بندهاي يادگيري ماشين وابسته‌اند. اين روش‌ها با چالش‌هايي همچون سوگيري، استخراج دستي ويژگي‌ها، عدم تكرارپذيري و عدم دسترسي مواجه هستند كه كاركرد آن‌ها را محدود مي‌كند. علاوه بر اين، در مطالعات محدودي از توالي با روش‌هاي يادگيري عميق استفاده شده كه عملكردشان به ندرت بهتر از روش‌هاي يادگيري ماشين بوده است. با توجه به اهميت ساختار سه‌بعدي پروتئين در عملكرد زيستي و اتصال دارو، در اين پژوهش براي نخستين‌بار نقش ساختار در كنار توالي و ويژگي‌هاي زيستي در پيش‌بيني داروپذيري بررسي شد. براي اين منظور، مدل‌سازي ساختار با استفاده از رويكردهايي چون ابرنقاط، نقشه تعاملات و شبكه‌هاي عصبي گراف به‌كار گرفته شد. مقايسه‌ها نشان دادند كه روش‌هاي مبتني بر توالي، به‌ويژه با بهره‌گيري از بازنمايي‌هاي مدل‌هاي پيش‌آموزش‌ديده BERT و ESM-2، عملكرد بهتر و مؤثرتري نسبت به روش‌هاي مبتني بر ساختار دارند. اين نتايج نشان مي‌دهد كه اطلاعات ساختاري پروتئين‌ها در توالي آن‌ها نيز بازتاب يافته است و از آن‌جا كه استخراج اين اطلاعات از توالي، كه در دسترس‌تر از داده‌هاي ساختاري است، ساده‌تر و كارآمدتر است، بهره‌گيري از توالي در پيش‌بيني داروپذيري مزيت بيشتري دارد.در نهايت، براي ارتقا در پيش‌بيني داروپذيري، روشي نوين با نام DrugTar پيشنهاد شده است. اين روش، با ادغام مؤثر بازنمايي‌هاي توالي مدل پيش‌آموزش‌ديده ESM-2 و آنتولوژي‌هاي ژن و بهره‌گيري از يك شبكه عصبي عميق، عملكرد مطلوبي را به نمايش گذاشته است. در اين روش، براي نخستين‌بار از آنتولوژي‌هاي ژن به‌عنوان يكي از ويژگي‌هاي كليدي استفاده شده است. همچنين، به‌كارگيري تكنيك انتخاب ويژگي مبتني بر SVM از بيش‌برازش جلوگيري كرده و موجب شده DrugTar در اعتبارسنجي متقابل، به ميانگين 94/0 در هر دو شاخص AUC و AUPRC دست يابد و در عين حال توافق عالي و همبستگي بالايي با استاندارد طلايي نشان دهد. افزون بر اين، كاليبراسيون خوب، عملكرد مستقل نسبت به نمونه‌هاي منفي و توانايي در شناسايي اهداف مرتبط با هر دو گروه داروهاي كوچك‌مولكول و بيوتكنولوژيكي، از ديگر نقاط قوت DrugTar به‌شمار مي‌آيد. ارزيابي‌هاي گسترده در چندين مجموعه ‌داده و برتري نسبت به ساير مدل‌هاي پيشرفته نيز اعتبار اين روش را بيش از پيش تقويت مي‌كند. بررسي پيش‌بيني‌هاي برتر اين روش نشان مي‌دهد كه DrugTar نه تنها در شبيه‌سازي‌ها، بلكه در عمل نيز مي‌تواند در پيش‌بيني اهداف دارويي و تسهيل فرايند كشف دارو كاربردي باشد.
چكيده انگليسي :
Target discovery is crucial in drug development, especially for complex chronic diseases. Recent advances in high-throughput technologies an‎d the explosion of biomedical data have highlighted the potential of computational druggability prediction methods. However, most current methods rely on sequence-based features with machine learning, which often face challenges related to han‎d-crafted features, reproducibility, an‎d accessibility. Moreover, the potential of raw sequence an‎d protein structure has not been fully investigated. Here, we leveraged both protein sequence an‎d structure using deep learning techniques, revealing that protein sequence, especially pre-trained embeddings, is more informative than protein structure. Next, we developed DrugTar, a high-performance deep learning algorithm integrating sequence embeddings from the ESM-2 pre-trained protein language model with gene ontologies to predict druggability. DrugTar achieved areas under the curve an‎d precision–recall curve values of 0.94, outperforming state-of-the-art methods. In conclusion, DrugTar streamlines target discovery as a bottleneck in developing novel therapeutics.
استاد راهنما :
ايمان ايزدي نجف آبادي
استاد مشاور :
يوسف قيصري
استاد داور :
حميدرضا مراتب , حميدرضا مراتب , جعفر قيصري
لينک به اين مدرک :

بازگشت