توصيفگر ها :
يادگيري ماشين , حسگر الكتروشيميايي , پروتئين , pKa
چكيده فارسي :
در اين پژوهش، از مدلهاي يادگيري ماشين جهت پيشبيني جريان خروجي حسگرهاي الكتروشيميايي و مقادير pKa در پروتئينها استفاده شد. هدف كار اول طراحي يك مدل پيشرفته يادگيري ماشين براي پيشبيني مقدار جريان در يك حسگر الكتروشيميايي است، و در كار دوم، مدلي براي پيشبيني مقادير pKa ارائه ميشود كه براي درك رفتار تفكيك اسيدي پروتئينها بسيار مهم است.
در زمينه حسگر الكتروشيميايي، بر روي مدلهاي يادگيري ماشين تمركز شده است تا عملكرد و قابليت اطمينان يك حسگر الكتروشيميايي را افزايش دهد. هدف، طراحي يك مدل يادگيري ماشين براي پيشبيني ميزان جريان در سنسور مبتني بر پليمر قالب مولكولي است. سنسورهاي مبتني بر پليمرهاي قالب مولكولي از پليمرهايي ساخته ميشوند كه بهطور خاص براي تشخيص مولكولهاي هدف طراحي شدهاند. اين سنسورها با ايجاد حفرههايي در ساختار پليمر كه متناسب با شكل و اندازه مولكول هدف هستند، ميتوانند آن را شناسايي و اندازهگيري كنند. اين ويژگيها باعث دقت بالا و انتخابپذيري در تشخيص ميشوند. ويژگيهاي مورد استفاده در اين مطالعه شامل ميزان بارگذاري نانولولههاي كربني چندجداره روي سطح، غلظت داكسوروبيسين، غلظت پيرول، تعداد چرخههاي ولتامتري چرخهاي الكتروپليمريزاسيون، سرعت اسكن ولتامتري چرخهاي الكتروپليمريزاسيون، تعداد چرخههاي اسكن ولتامتري چرخهاي در طول بيشاكسيداسيون و زمان انكوباسيون ميباشد. از چهار مدل يادگيري ماشين براي ارزيابي تأثير هر پارامتر بر عملكرد پيشبيني، با استفاده از روش SHAP براي تعيين اهميت ويژگي استفاده شده است. بر اساس تجزيه و تحليل، حذف يك ويژگي كمتر تاثيرگذار و معرفي يك ويژگي جديد به طور قابل توجهي قابليتهاي پيشبيني مدل را بهبود بخشيد. علاوهبراين، استفاده از تكنيك مقياسبندي Min-Max تضمين كرد كه همه ويژگيها به طور متناسب در فرآيند يادگيري مدل مشاركت دارند. مدلهاي مختلف يادگيري ماشين در مجموعه دادهها اعمال شده است و عملكرد آنها در پيشبيني جريان خروجي سنسور مقايسه شد. براي افزايش بيشتر عملكرد پيشبيني، از تكنيك رگرسور انباشته استفاده شد كه در آن مدلهاي رگرسيون پايه تركيب ميشود، از نقاط قوت آنها استفاده شده و ضعفهاي فردي آنها را جبران ميكند. اين رگرسور انباشته در نهايت منجر به مدلي شد كه هم از نظر عملكرد و هم از نظر قابليت اطمينان از ساير مدلهاي فردي بهتر عمل كرد.
به طور مشابه، در پيشبيني مقادير pKa پروتئين، با انتخاب دقيق مجموعهاي از ويژگيهايي كه ويژگيهاي ذاتي باقيماندههاي مولكولي و اثرات محيط مولكولي را نشان ميدهد، يك رويكرد مبتني بر يادگيري ماشين توسعه داده شد. اين ويژگيها شامل نام باقيمانده، فاكتور B، دسترسي به سطح، تعداد پيوندهاي هيدروژني، تعداد اتمهاي سنگين و تعداد باقيماندههاي قابل يونيزاسيون است، كه اين ويژگيها به عوامل مؤثر بر pKa مانند هويت شيميايي، قرار گرفتن در معرض حلال وشبكههاي پيوند هيدروژني مرتبط هستند. مدلهاي رگرسيون مختلفي از جمله رگرسيون خطي، رگرسيون بردار پشتيبان، جنگلهاي تصادفي اعمال شده است و عملكرد آنها با استفاده از تكنيكهاي اعتبارسنجي متقاطع بر اساس معيارهايي مانند ميانگين خطاي مطلق (MAE) و ريشه ميانگين مربعات خطا (RMSE) ارزيابي شد. همانند كار حسگر الكتروشيميايي، تكنيك رگرسور انباشته منجر به بهترين مدل شد كه با ثبت مؤثر روابط پيچيده بين ويژگيهاي انتخاب شده و مقادير pKa ، به بالاترين سطح عملكرد پيشبيني دست يافت.
به طور كلي، تحقيقات ما اثربخشي يادگيري ماشين را، به ويژه از طريق رويكردهاي مجموعهاي مانند رگرسور انباشته، در بهبود مدلسازي پيشبيني در حسگر الكتروشيميايي و بيوشيمي نشان ميدهد.
چكيده انگليسي :
In this research, machine learning models were used to predict the output current of electrochemical sensors and pKa values in proteins. The aim of the first work is to design an advanced machine learning model to predict the current value in an electrochemical sensor, and in the second work, a model is presented to predict the pKa values, which is very important for understanding the acidic dissociation behavior of proteins.
In the field of electrochemical sensing, machine learning models have been focused on to enhance the performance and reliability of an electrochemical sensor. The aim is to design a machine learning model to predict the current in a molecularly imprinted polymers based sensor. Molecularly imprinted polymers-based sensors are made from polymers that are specifically designed to detect target molecules. These sensors can identify and measure the target molecule by creating holes in the polymer structure that match the shape and size of the target molecule. These features cause high performance and selectivity in diagnosis. The characteristics used in this study include loading of multi-walled carbon nanotubes on the surface, doxorubicin concentration, pyrrole concentration, number of electropolymerization cyclic voltammetry cycles, electropolymerization cyclic voltammetry scanning speed, number of cyclic voltammetry scanning cycles during overoxidation and incubation time. Four machine learning models have been used to evaluate the effect of each parameter on the prediction performance, using the SHAP method to determine the importance of the feature. Based on the analysis, removing a less influential feature and introducing a new feature significantly improved the predictive capabilities of the model. In addition, the use of the Min-Max scaling technique ensured that all features contributed proportionally to the model learning process. Different machine learning models have been applied to the dataset and their performance in predicting the sensor output current has been compared. To further increase the predictive performance, the stacking regressor technique was used, in which basic regression models are combined, their strengths are used, and their individual weaknesses are compensated. This stacking regressor ultimately resulted in a model that outperformed the other individual models in terms of both performance and reliability.
Similarly, in predicting protein pKa values, a machine learning-based approach was developed by carefully selecting a set of features that represent the intrinsic properties of molecular residues and the effects of the molecular environment. These features include residue name, B factor, surface accessibility, number of hydrogen bonds, number of heavy atoms, and number of ionizable residues, which are related to factors affecting pKa such as chemical identity, solvent exposure, and hydrogen bond networks. Various regression models including linear regression, support vector regression, and random forests have been applied and their performance was evaluated using cross-validation techniques based on criteria such as mean absolute error (MAE) and root mean square error (RMSE). Similar to the electrochemical sensor work, the stacking regressor technique resulted in the best model that achieved the highest level of predictive performance by effectively capturing the complex relationships between selected features and pKa values.
Overall, our research demonstrates the effectiveness of machine learning, particularly through ensemble approaches such as stacking regressor, in improving predictive modeling in electrochemical and biochemical sensing.