توصيفگر ها :
متنكاوي , پرونده الكترونيك سلامت , خوشهبندي كلمات , يادگيري ماشين , استخراج جنبه , تعبيه كلمات
چكيده فارسي :
متنكاوي يادداشتهاي پزشكي بهمنظور استخراج اطلاعات از اين متون، اهميت بسزايي در تسهيل استفاده مجدد از اين يادداشتها و اتخاذ تصميمات باليني دقيقتر دارد. باتوجهبه اينكه حجم يادداشتهاي باليني در پروندههاي الكترونيك سلامت بيماران به طور مداوم در حال افزايش است، استفاده درست و بهينه از اين اطلاعات براي ارتقاي كيفيت خدمات بهداشتي و درماني ضروري ميباشد. بهكارگيري روشهاي پيشرفته متنكاوي ميتواند به تحليل سريعتر و دقيقتر اين حجم وسيع از دادهها كمك كند و در نتيجه بهرهوري سيستمهاي بهداشتي را بهبود بخشد. در اين پژوهش، جهت استخراج اطلاعات و كمك به پزشكان جهت تسهيل در روند تصميمگيري باليني از يك روش مبتني بر جنبه استفاده شده است. در پژوهشهاي اخير رويكردهاي بدون نظارت به دليل صرفهجويي در هزينه و زمان جهت استخراج جنبهها به طور قابل توجهي مورد توجه قرار گرفتهاند؛ بسياري از اين روشها از مدلسازي موضوعي براي استخراج جنبهها بهره ميگيرند؛ اما مدلسازي موضوعي بهتنهايي ممكن است به استخراج جنبههايي منجر شود كه از نظر خبرگان فاقد اهميت هستند. در ادامه براي حل اين مشكل از خوشهبندي تكرارشونده كلمات جهت استخراج جنبهها مطابق نظر خبره استفاده شده است. روش پيشنهادي اين پژوهش شامل ساختاري تركيبي از مدلهاي يادگيري بدون نظارت و بانظارت ميباشد. در فاز اول اين پژوهش، جهت استخراج جنبهها از مدلهاي يادگيري بدون نظارت و در فاز دوم، جهت تشخيص وضعيت هر جنبه در هر يادداشت باليني از روشهاي يادگيري بانظارت استفاده شده است. در فاز اول، پس از استخراج كلمات كليدي به ايجاد يك پيكره با استفاده از يادداشتهاي باليني، جهت آموزش مدل Word2vec و استخراج بردار تعبيه مربوط به كلمات كليدي براي ورود آنها به الگوريتمهاي مختلف خوشهبندي پرداخته شد؛ پس از بررسي الگوريتمهاي خوشهبندي استفاده شده، درنهايت با كمك الگوريتم خوشهبندي مدل مخلوط گوسي طي چند مرحله، جنبههاي اشاره شده در يادداشتهاي باليني حوزه مراقبت تسكيني سرطان مطابق با اهميت جنبه از نظر خبرگان شناسايي و تعيين شدند؛ در اين فاز 14 جنبه شامل دفع ادرار، دفع مدفوع، گوارش، ترشحات، تغذيه، وابسته به تخت، فعاليت، تنفس، بستري، تجمع مايعات در اندام، قلب و ريه، روان، هوشياري و عارضه اندام استخراج شد. اين جنبهها از جمله جنبههاي حائز اهميت در تصميمات باليني هستند كه در اكثر يادداشتها به آنها پرداخته شده است. در فاز دوم، وضعيت جنبههاي استخراج شده در 400 يادداشت باليني توسط خبرگان برچسب گذاري شد. جهت تشخيص وضعيت جنبهها در هر يادداشت، از مدلهاي يادگيري بانظارت طي سه سناريو استفاده و سپس مدل و سناريوي مناسب براي هر جنبه مشخص شد. در نهايت، جهت مقايسه و ارزيابي روش پيشنهادي پژوهش در تشخيص وضعيت جنبهها از يك روش مرسوم (TF-IDF) استفاده شد. نتايج ارزيابي نشان ميدهد كه مدل پيشنهادي در اكثر جنبهها بهبود قابل توجهي داشته است. بهطور ميانگين، ميزان بهبود دقت در تمامي جنبهها 2.48% و ميانگين بهبود امتياز F1 برابر با 13% است؛ همچنين بيشترين ميزان بهبود امتياز F1 مربوط به جنبه تجمع مايعات در اندام ميباشد كه بهبود دقت برابر با 0.97% و بهبود امتياز F1 بيش از 100% ميباشد.
چكيده انگليسي :
Text mining of medical notes plays a crucial role in extracting valuable information, facilitating the reuse of clinical notes, and supporting more accurate clinical decision-making. Given the continuous growth in the volume of clinical notes in electronic health records, effective utilization of this data is essential for enhancing the quality of healthcare services. Advanced text mining techniques can accelerate and improve the accuracy of analyzing large volumes of data, thereby increasing the efficiency of healthcare systems. In this research, an aspect-based method was employed to extract information and assist physicians in clinical decision-making processes. Recent studies have shown that unsupervised approaches are gaining considerable attention due to their cost- and time-saving advantages in aspect extraction. Many of these methods utilize topic modeling, but this approach alone may identify aspects that lack significance from the experts' perspective. To address this issue, iterative clustering of words was applied to extract aspects aligned with expert opinions. The proposed method in this study combines unsupervised and supervised learning models. In the first phase, unsupervised learning models were used for aspect extraction, while in the second phase, supervised learning methods were applied to identify the status of each aspect in clinical notes. After extracting the keywords, a corpus was built using clinical notes to train the Word2Vec model and generate word embeddings, which were then input into various clustering algorithms. Following an evaluation of the clustering algorithms, Gaussian Mixture Models were employed through several iterations to identify and prioritize the aspects mentioned in the clinical notes of palliative care cancer patients based on expert importance. Fourteen aspects were identified, including urination, defecation, digestion, secretions, nutrition, bed dependency, activity, respiration, hospitalization, fluid accumulation in limbs, cardiovascular and respiratory conditions, psychological status, consciousness, and limb complications. These aspects are critical in clinical decision-making and are frequently mentioned in the notes. In the second phase, the status of the extracted aspects in 400 clinical notes was labeled by experts. Supervised learning models were then applied across three scenarios to determine the aspect status in each note, and the most appropriate models and scenarios for each aspect were identified. To compare and evaluate the proposed method for aspect status identification, a traditional method (TF-IDF) was also employed. evaluation results show significant improvement in the proposed model for most aspects, with an average accuracy improvement of 2.48% and an average F1-score improvement of 13%. The most significant F1-score improvement was observed for the aspect of fluid accumulation in limbs, with a 0.97% increase in accuracy and more than a 100% improvement in the F1-score.