توصيفگر ها :
خلاصه سازي متن , گرافهاي ناهمگن , خوشه بندي گرافهاي ناهمگن , رتبهبندي گرافهاي ناهمگن
چكيده فارسي :
امروزه به دليل گسترش اينترنت و پيشرفت فناوري اطلاعات و بهكارگيري وسيع آنها در حوزه زيست پزشكي، با حجم وسيعي از دادههاي متني در اين حوزه روبهرو هستيم. كاربران و پژوهشگران براي دستيابي و يافتن اطلاعات مفيد و مناسب با حجم انبوه اطلاعات روبهرو بوده و نياز به جستجو در پايگاههاي بزرگي از دادههاي مرتبط و غير مرتبط را دارند كه علاوه بر صرف زمان، منجر به از دست دادن اطلاعات مفيد نيز ميشود. سيستمهاي خلاصهساز بهعنوان يك راهحل براي توليد چكيدهاي از اطلاعات استفاده ميشوند. هدف از خلاصهسازي متن، توليد خودكار زيرمجموعهاي كوتاه از متن اصلي است كه حاوي عمده اطلاعات و موضوعات مهم واصلي بوده و درعينحال فاقد افزونگي باشد.
روشهاي گوناگوني براي خلاصهسازي متون در دامنههاي عمومي و پزشكي مطرح شده است. روشهاي خلاصهسازي عمومي عملكرد مطلوبي در دامنهي پزشكي ندارند؛ زيرا متون پزشكي شامل مفاهيم خاص و پيچيده، مترادفها، كلمات كوتاه شده و اختصارها است. در روشهاي گذشته از مفاهيمي چون يادگيري ماشين، مدلسازي گراف، بهينهسازي و روشهاي آماري در خلاصهسازي سيستمهاي پزشكي استفاده شده است. نتايج حاصل از بهكارگيري روشهاي مختلف نشان داده است كه استفاده از دانش زمينهاي و بهرهگيري از مفاهيم تخصصي هر حوزه به توليد خلاصههايي با دقت بيشتر كمك ميكند. استفاده از گرافهاي ساده و نگاه تكبعدي به روابط موجود در متن از جمله نقاط ضعف روشهاي پيشين مبتني بر گراف است. اولين گام بهمنظور بهبود روشهاي قبلي، ساخت گراف غنيتري باشد كه تا حد امكان، روابط و ويژگيهاي مختلف و تأثيرگذار متن را پوشش دهد.
هدف از اين پژوهش ارائهي روشي براي خلاصهسازي متون پزشكي با استفاده از روشي مبتني بر گراف چندلايه است. در مرحلهي نخست، با استفاده از مفاهيم معنايي و گرافهاي چندلايه، از متون دادهشده گراف جامعي ايجادشده است. براي اين كار از پايگاه داده UMLS در كنار ابزارهايي مانند MetaMap و OGER براي استخراج مفاهيم و SemRep براي شناسايي روابط استفاده شده است. درنهايت خروجي اين مرحله يك گراف سه لايه؛ شامل لايههاي 1 شباهت مبتني بر كلمات، 2) شباهت مبتني بر مفاهيم معنايي و 3) شباهت مبتني بر هم رخدادي واژگان است.
روشهاي مختلفي براي خوشهبندي و امتيازدهي جملات بر اساس گرافهاي چندلايه بررسي شدند. در اين مرحله، روشهايي انتخاب شدند كه با حفظ روابط و اطلاعات استخراج شده از متن، خروجي غنيتري را توليد كنند. در اين مرحله از دو رويكرد مختلف خوشهبندي و رتبهبندي استفاده شده است. در رويكرد خوشهبندي، با بهرهگيري از روشهاي خوشهبندي گرافهاي چندلايه، خوشههاي مختلفي از جملات ساختهشده است. در ادامهِ با استفاده از هيوريستيكهاي مختلف، جملات خروجي از خوشههاي متفاوت استخراج شده است. در تعريف هيوريستيكها تلاش شده است تا ويژگيهاي آماري بهعنوان يك پارامتر در انتخاب جملات تأثيرگذار باشد. در رويكرد رتبهبندي جملات، گراف چندلايه ساخته شده بدون نياز به خوشهبندي و بر اساس روشهاي متكي به PageRank رتبهبندي شده و دو نسخهي مختلف بر مبناي اين رويكرد ارائه شده است. در نسخهي اول، جملاتي كه در بالاي ليست خروجي الگوريتم رتبهبندي هستند بهعنوان متن خلاصه انتخاب ميشوند. در نسخهي دوم، طول جملات بر اساس تعداد مفاهيم محاسبه شده و بهعنوان يك پارامتر تأثيرگذار براي انتخاب جملات به روش پيشنهادي اضافه ميشود.
براي ارزيابي روش پيشنهادي از رويكردها و ابزارهاي رايج در اين حوزه بهره گرفته شده است. از معروفترين روشها، معيارهاي استاندارد ROUGE و BertScore ميباشند كه در آنها متن خلاصه توليد شده با چكيدهي مقاله بهعنوان خلاصهي طلايي مقايسه و امتيازدهي ميشود. نتايج ارزيابي با روشها و استفاده از هيوريستيكهاي مختلف و ميزان بهبود گزارششده است.
چكيده انگليسي :
Currently, an enormous amount of textual data is generated in the biomedical domain due to the rapid spread of the Internet and the advancement in information technology. Users and researchers often have difficulty finding valuable information among the vast amount of data. It takes longer to search large databases of unrelated and related information, and data loss also occurs during this process. Text summarization systems are used to create information summaries automatically. A subset of the original text is produced with relevant information and topics without redundancy in automatic text summarization.
Our study proposes a multilayer graph-based biomedical text summarization. A comprehensive graph was built from the given texts using semantic concepts and a multilayer graph. Tools such as MetaMap and OGER allow the extraction of concepts from the UMLS database, and SemRep can identify relationships between concepts. The result is three-layered: 1) Similarity-based on words, 2) Similarity-based on semantic concepts, and 3) Similarity-based on the co-occurrence of words.
There have been various methods proposed for domain-independent summarization and biomedical texts. General summarization methods do not work well in the biomedical domain. Compared to other texts, biomedical texts contain many complex concepts, synonyms, abbreviations. Algorithms such as machine learning, graph modeling, optimization, and statistical methods have been used in biomedical text summarization. Different methods have demonstrated that domain-specific knowledge and semantic concepts produce more accurate summaries. The previous graph-based methods presented relationships in the text with simple graphs and one-dimensional views. As a starting point, it is important to create a richer graph that includes as many different and effective relationships as possible.
Based on multilayer graphs, several methods for clustering and scoring sentences have been investigated. As a result, methods were chosen to produce a richer output while maintaining the relationships and information gleaned from the text. The approach used at this stage is clustering and ranking. Clustering refers to the creation of different groups of sentences based on multilayer graph clustering. A variety of heuristics are then used to extract the output sentences. As a part of defining heuristics, it is essential to understand how statistical features can be used for selection. In the sentence ranking process, multi-layered graphs are produced without clustering and with PageRank algorithms. Using this approach, we present two versions. Based on the ranking algorithm output list, the first version includes the top sentences. The second version involves calculating sentence length based on the number of concepts. We add this parameter as an effective parameter in our proposed method for selecting sentences.
evaluation of the proposed method has been conducted with common approaches and tools in this field. The ROUGE and BertScore standard criteria, which compare and score the generated summary text to the article abstract as a golden summary, are two popular approaches. In the study, different algorithms and heuristics are evaluated, and the level of improvement is reported