توصيفگر ها :
تحليل شباهت بيمار , بازنمايي اطلاعات پرونده الكترونيكي سلامت , پردازش زبان طبيعي , انفورماتيك پزشكي
چكيده فارسي :
امروزه با توسعه پرونده الكترونيكي سلامت، استفاده مجدد از اطلاعات باليني براي كاربردهاي ثانويه مانند پزشكي دقيق، مديريت منابع باليني، برنامههاي نظارت و پايش بيماريها و طبقهبندي بيماريها فراهمشده است. شناسايي بيماران شبيه، يكي از اركان كاربردهاي ثانويه است. به اين منظور لازم است انواع اطلاعات ثبتشده در پرونده به فرمي مقايسه پذير تبديل شود. بخش مهمي از دادههاي ثبتشده براي بيماران اطلاعات بدون ساختار (متني) است. دركارهاي قبلي كه از دادههاي متني در توليد بازنمايي استفادهشده است، بردار نهايي بازنمايي از اتصال دو بردار بازنمايي متن و بردار بازنمايي دادههاي ساختيافته ايجاد ميشود. در پژوهشي جديد با هدف شناسايي ارتباطات دادههاي ساختيافته و بدون ساختار ابتدا مدل داده از از تركيب انواع داده ها تشكيل شده و سپس بازنمايي صورت گرفته است. ازجمله نكات قابلبهبود در كارهاي قبل كه در اين پژوهش موردتوجه قرارگرفته است پردازش دادههاي متني باليني با استفاده از نگاشت مفاهيم باليني به پايگاه دانش است. يراي غني ساختن جنبه زماني استخراج اطلاعات، علاوه بر پردازش زمان ثبت رويدادهاي باليني، به اثر سوابق قبلي بيمار كه از متنهاي باليني استخراجشدهاند نيز توجه شده و در مدلسازي استفاده گرديده است. مدل پيشنهادي ارائهشده در اين پژوهش در راستاي بهبود ضعف روشهاي قبلي بر پايه سه ايده تركيب دادههاي ساختيافته و بدون ساختار، مديريت دادههاي زماندار و شناسايي مفاهيم كليدي در متن هاي باليني طراحيشده است. دو الگوريتم پيشنهادي با نامهاي UTTree و UTTree-H معرفي شدهاند و بر پايه ساختار درختي طراحي شدهاند كه دادهها را از منابع مختلف تركيب كرده و ترتيب زماني رخداد رويدادهاي باليني را حفظ ميكند . در الگوريتم UTTree-H گستره زمان ثبت رويداد توسعه يافته و دادههاي سوابق قبلي بيمار در مدلسازي لحاظ شدهاند. نتايج اجراي الگوريتمها روي مجموعه دادگان MIMIC-III نشان داد ساختار پيشنهادي بهمنظور تركيب اطلاعات استخراجشده از پرونده الكترونيكي بيماران منجر به بهبود معيارهاي ارزيابي نسبت به مدلهاي پايه ميگردد و تعداد مفاهيم استخراجشده از بخش سوابق بيمار با اثربخشي روش UTTree-H رابطه دارد. براي بازنمايي، از مدلهاي زباني مبتني بر تبديلگر با هدف بهرهگيري از مزاياي يادگيري انتقالي استفاده گرديد. همچنين راهكار آماري انتخاب مفاهيم پراهميتتر پيادهسازي شد و ارزيابيها نشان داد كه انتخاب مفاهيم پراهميتتر ميتواند در مدلهاي مبتني بر تبديلگر منجر به بهبود معيارها شود. در پايان يك الگوريتم پيشنهادي بهمنظور بهرهگيري از الگوي يادگيري مبتني بر اعلان ارائه گرديد و بهعنوان كارهاي آتي روي توسعه اين الگوي پردازشي تمركز خواهد شد.
چكيده انگليسي :
Today, with the development of electronic health records, the reuse of clinical information for secondary applications such as precision medicine, clinical resource management, disease surveillance and monitoring programs, and disease classification is provided. Identification of similar patients is one of the pillars of secondary applications. For this purpose, it is necessary to convert the types of information recorded in the file into a comparable form. An important part of recorded data for patients is unstructured (textual) information. In the previous works that used textual data in the representation generation, the final representation vector is created by connecting two text representation vectors and the structured data representation vector. In a recent study, to identify the relationships between structured and unstructured data, first, the data model is composed of a combination of types of data, and then the representation is made. Among the points that can be improved in the previous works that have been considered in this study is the processing of clinical textual data using the mapping of clinical concepts to the knowledge-base. From the point of view of time dimension management, in addition to paying attention to the recording time of clinical events, the effect of the patient's previous records extracted from clinical texts has also been taken into account and used in modeling. The proposed model presented in this research is designed to improve the weakness of previous methods based on three ideas combining structured and unstructured data, managing timed data and identifying key concepts in clinical texts. The two proposed algorithms are known as UTTree and UTTree-H and are designed based on a tree structure that combines data from different sources and maintains the chronological order of occurrence of clinical events. In the UTTree-H algorithm, the concept of event registration time has been expanded and the data from the patient's previous records have been included in the modeling. The results of running the algorithms on the MIMIC-III data set showed that the proposed structure to combine the information extracted from the patients' electronic records leads to the improvement of the evaluation criteria compared to the basic models, and the number of concepts extracted from the section of the patient record is related to the effectiveness of the UTTree-H method. For representation, converter-based language models were used to take advantage of transfer learning. Also, the statistical solution of choosing more important concepts was implemented and the evaluations showed that choosing more important concepts can lead to improvement of criteria in converter-based models. In the end, a proposed algorithm was presented to take advantage of the notification-based learning model, and future works will focus on the development of this processing model.