توصيفگر ها :
استخراج فنوتايپ هاي بيماري , مدل هاي يادگيري عميق , خلاصه ساز بيماري محور , خلاصه ساز مبتني بر دانش , BERT , پرونده الكترونيك سلامت
چكيده فارسي :
امروزه مراكز درماني، درمان و مراقبتهاي باليني مربوط به بيماران را در قالب پروندههاي الكترونيك سلامت ثبت
مي كنند. بخش عمدهاي از مراقبت هاي الزم در قالب يادداشتهاي باليني متشكل از زبان طبيعي ذخيره شده اند كه تحليل و
جستجوي اطلاعات آن ها براي مراقبت هاي درماني بيمار و مدل سازي محاسباتي ضروري است. رشد روزافزون يادداشت هاي
باليني موجود در پرونده الكترونيك سلامت باعث ايجاد پيامدهاي منفي بالقوه در فرايندهاي باليني از جمله خطاهاي ناشي از
ناديده گرفته شدن اطالعات مهم، تاخير در ارائه روش درماني مناسب و به طور كلي به خطر افتادن سلامت بيماران ميشود.
تاكنون روش هاي مختلفي در حوزه متن كاوي براي خالصه سازي يادداشت هاي باليني ارائه شده است كه از روش هاي
آماري با استفاده از پايگاه هاي دانش، استفاده از عبارات نشانه و مدلهاي يادگيري عميق ميتوان نام برد. از جمله چالش هاي
موجود نياز به متخصصين دامنه براي حاشيه نويسي دستي و تعريف مفاهيم جامع و روابط بين آنها و ايجاد نمايش معنايي از
جملات و غني سازي پايگاه دانش است.
شناسايي فنوتايپ هاي موجود در يادداشت هاي باليني در حل اين مسئله نقش مهمي دارند و منجر به مشخص شدن گروه
بيمار نيز ميشوند كه يك كار اساسي در استفاده ثانويه از پرونده الكترونيك سلامت براي مديريت اطلاعات باليني بشمار مي رود.
روش هايي كه تاكنون براي حل مسئله شناسايي فنوتايپ هاي بيماري ارائه شدهاند، داراي دقت كافي در استخراج ويژگي هاي
مرتبط نبوده اند. رويكردهاي رايج يادگيري ماشين نيازمند پايگاههاي دانش و دخالتهاي متخصصين حوزه براي مهندسي
ويژگيهاي موجود در يادداشتهاي باليني هستند واز طرف ديگر رويكردهاي يادگيري عميق نيز ويژگيها را به طور خودكار
توسط مدلهاي عصبي عميق ميآموزند كه معموالا قادر به استخراج اطالعات معنايي و ويژگيهاي دستور زبان به طور موثر
نيستند.
در اين پژوهش يك مدل متشكل از دو واحد ارائه ميشود كه شامل واحد شناسايي فنوتايپهاي بيماري مبتني بر
يادگيري عميق با هدف شناسايي مرتبطترين عبارات به فنوتايپهاي قلبي و ريوي، و واحد خالصهساز مبتني برفنوتايپ با استفاده
از تركيب دو پايگاه دانش از جمله خروجي واحد قبلي به عنوان پايگاه دانش داخلي و هستيشناسي فنوتايپ انسان به عنوان پايگاه
دانش خارجي، مرتبطترين جمالت به ناهنجاريهاي فنوتايپي قلبي و ريوي را شناسايي ميكند.
مدل ارائه شده تعداد ويژگي بيشتري را نسبت به روشهاي موجود استخراج كرده و شاخصF1 بهتري فراهم ميسازد.
همچنين واحد خالصهساز مبتني بر فنوتايپ با استفاده از فنوتايپهاي شناسايي شده توسط مدل عميق، موضوعات مرتبط با
فنوتايپهاي قلبي و ريوي را بصورت خودكار و بدون نياز به متخصصين حوزه استخراج ميكند وبا استفاده از جاسازي مبتني بر
محتوا ميتواند ضبط نمايش معنايي جمالت را بدون نياز به نگاشت مفاهيم موجود به اصطالحات متناظر در پايگاههاي دانش
براي تحليل جمالت در سطح مفهوم فراهم سازد. سيستم خالصهساز مبتني بر فنوتايپ قادر به حل چالشهاي موجوددر روشهاي
قبلي هنگام استفاده از پايگاههاي دانش بوده است و همچنين روشهاي نوين امتيازدهي به جمالت در اين پژوهش باعث بهبود
شاخص هاي ROUGE سيستم خالصه ساز در مقايسه با خالصه سازهاي مبتني بر محتوا نظير BERT و مبتني بر روشهاي آماري
نظير SUMMA شده است.
چكيده انگليسي :
Today, medical centers record treatment and clinical care for patients in the form of electronic health
records. Most of the necessary clinical care is stored in clinical notes consisting of natural language.
The analysis and search of the clinical notes are essential for patient care and computational modeling.
The growing number of clinical notes in electronic health records creates potentially negative
consequences for clinical processes, including errors due to the omission of important information,
delays in providing appropriate treatment, and generally endangering patientʹs health.
Different text mining methods are proposed to summarize clinical notes, including statistical methods
using knowledge bases, cue expressions, and deep learning models. Among the existing challenges is
the need for domain specialists to annotate and define comprehensive concepts and relationships
between them, create semantic representations of sentences, and enrich the knowledge base.
Identifying the phenotypes in clinical notes plays a vital role in resolving this issue and leads to
identifying the patient group, which is a crucial task in the secondary use of electronic health records
for the management of clinical information. The methods proposed so far to solve the problem of
identifying disease phenotypes have not been accurate enough to extract related features. Conventional
machine learning approaches require knowledge bases and field expertsʹ intervention to do feature
engineering in clinical notes. On the other hand, deep learning approaches also learn features
automatically by deep neural models, which cannot effectively extract semantic information and
grammatical features.
In this study, a model consisting of two units is presented, including a unit for identifying disease
phenotypes based on deep learning to identify the most relevant terms to cardiac and pulmonary
phenotypes. A summary unit based on phenotype using a combination of two knowledge bases,
including the output of the previous unit, as a base of internal knowledge and, the human phenotype
ontology, as a base of external knowledge, identifies the most relevant sentences to cardiopulmonary
phenotypic abnormalities.
The proposed model extracts more features than the existing methods and provides a better F1score.
Also, the phenotype-based summarizing unit, using the phenotypes identified by the deep neural model,
automatically extracts topics related to cardiac and pulmonary phenotypes without the need for experts
in the field and can use content-based embedding to record the semantic display of sentences without
the need for providing existing concepts with related terms in knowledge bases for sentence-level
analysis of sentences. The phenotype-based summary system could tackle the challenges of previous
methods when using knowledge bases. This studyʹs new sentence scoring methods improve the
summary systemʹs ROUGE scores compared to content-based summaries such as BERT and SUMMA
based on statistical methods.