شماره مدرك :
17235
شماره راهنما :
1865 دكتري
پديد آورنده :
داوودي جم، انسيه
عنوان :

خلاصه‌سازي مبتني بر گراف متون زيست پزشكي

مقطع تحصيلي :
دكتري
گرايش تحصيلي :
نرم افزار
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
سيزده،107ص.:مصور، جدول، نمودار.
استاد راهنما :
ناصر قديري مدرس
استاد مشاور :
مريم لطفي شهرضا، فابيو رينالدي
توصيفگر ها :
خلاصه سازي متن , گراف‌هاي ناهمگن , خوشه بندي گراف‌هاي ناهمگن , رتبه‌بندي گراف‌هاي ناهمگن
تاريخ ورود اطلاعات :
1400/11/20
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1400/11/20
كد ايرانداك :
2739226
چكيده فارسي :
امروزه به دليل گسترش اينترنت و پيشرفت فناوري اطلاعات و به‌كارگيري وسيع آن‌ها در حوزه زيست پزشكي، با حجم وسيعي از داده‌هاي متني در اين حوزه روبه‌رو هستيم. كاربران و پژوهشگران براي دستيابي و يافتن اطلاعات مفيد و مناسب با حجم انبوه اطلاعات روبه‌رو بوده و نياز به جستجو در پايگاه‌هاي بزرگي از داده‌هاي مرتبط و غير مرتبط را دارند كه علاوه بر صرف زمان، منجر به از دست دادن اطلاعات مفيد نيز مي‌شود. سيستم‌هاي خلاصه‌ساز به‌عنوان يك ‌راه‌حل براي توليد چكيده‌اي از اطلاعات استفاده مي‌‌شوند. هدف از خلاصه‌سازي متن، توليد خودكار زيرمجموعه‌اي كوتاه از متن اصلي است كه حاوي عمده اطلاعات و موضوعات مهم واصلي بوده و درعين‌حال فاقد افزونگي باشد. روش‌هاي گوناگوني براي خلاصه‌سازي متون در دامنه‌هاي عمومي و پزشكي مطرح شده است. روش‌هاي خلاصه‌سازي عمومي عملكرد مطلوبي در دامنه‌ي پزشكي ندارند؛ زيرا متون پزشكي شامل مفاهيم خاص و پيچيده، مترادف‌ها، كلمات كوتاه شده و اختصارها است. در روش‌هاي گذشته از مفاهيمي چون يادگيري ماشين، مدل‌سازي گراف، بهينه‌سازي و روش‌هاي آماري در خلاصه‌سازي سيستم‌هاي پزشكي استفاده شده است. نتايج حاصل از به‌كارگيري روش‌هاي مختلف نشان داده است كه استفاده از دانش زمينه‌اي و بهره‌گيري از مفاهيم تخصصي هر حوزه به توليد خلاصه‌هايي با دقت بيشتر كمك مي‌كند. استفاده از گراف‌هاي ساده و نگاه تك‌بعدي به روابط موجود در متن از جمله نقاط ضعف روش‌هاي پيشين مبتني بر گراف است. اولين گام به‌منظور بهبود روش‌هاي قبلي، ساخت گراف غني‌تري باشد كه تا حد امكان، روابط و ويژگي‌هاي مختلف و تأثيرگذار متن را پوشش دهد. هدف از اين پژوهش ارائه‌ي روشي براي خلاصه‌سازي متون پزشكي با استفاده از روشي مبتني بر گراف چندلايه است. در مرحله‌ي نخست، با استفاده از مفاهيم معنايي و گراف‌هاي چندلايه، از متون داده‌شده گراف جامعي ايجادشده است. براي اين كار از پايگاه داده UMLS در كنار ابزارهايي مانند MetaMap و OGER براي استخراج مفاهيم و SemRep براي شناسايي روابط استفاده شده است. درنهايت خروجي اين مرحله يك گراف سه لايه؛ شامل لايه‌هاي 1 شباهت مبتني بر كلمات، 2) شباهت مبتني بر مفاهيم معنايي و 3) شباهت مبتني بر هم رخدادي واژگان است. روش‌هاي مختلفي براي خوشه‌بندي و امتيازدهي جملات بر اساس گراف‌هاي چندلايه بررسي شدند. در اين مرحله، روش‌هايي انتخاب شدند كه با حفظ روابط و اطلاعات استخراج ‌شده از متن، خروجي غني‌تري را توليد كنند. در اين مرحله از دو رويكرد مختلف خوشه‌بندي و رتبه‌بندي استفاده شده است. در رويكرد خوشه‌بندي، با بهره‌گيري از روش‌هاي خوشه‌بندي گراف‌هاي چندلايه، خوشه‌هاي مختلفي از جملات ساخته‌شده است. در ادامهِ با استفاده از هيوريستيك‌هاي مختلف، جملات خروجي از خوشه‌هاي متفاوت استخراج ‌شده است. در تعريف هيوريستيك‌ها تلاش شده است تا ويژگي‌هاي آماري به‌عنوان يك پارامتر در انتخاب جملات تأثيرگذار باشد. در رويكرد رتبه‌بندي جملات، گراف چندلايه ساخته‌ شده بدون نياز به خوشه‌بندي و بر اساس روش‌هاي متكي به PageRank رتبه‌بندي شده و دو نسخه‌ي مختلف بر مبناي اين رويكرد ارائه ‌شده است. در نسخه‌ي اول، جملاتي كه در بالاي ليست خروجي الگوريتم رتبه‌بندي هستند به‌عنوان متن خلاصه انتخاب مي‌شوند. در نسخه‌ي دوم، طول جملات بر اساس تعداد مفاهيم محاسبه ‌شده و به‌عنوان يك پارامتر تأثيرگذار براي انتخاب جملات به روش پيشنهادي اضافه مي‌شود. براي ارزيابي روش پيشنهادي از رويكردها و ابزارهاي رايج در اين حوزه بهره گرفته ‌شده است. از معروف‌ترين روش‌ها، معيارهاي استاندارد ROUGE و BertScore مي‌باشند كه در آن‌ها متن خلاصه توليد شده با چكيده‌ي مقاله به‌عنوان خلاصه‌ي طلايي مقايسه و امتيازدهي مي‌شود. نتايج ارزيابي با روش‌ها و استفاده از هيوريستيك‌هاي مختلف و ميزان بهبود گزارش‌شده است.
چكيده انگليسي :
Currently, an enormous amount of textual data is generated in the biomedical domain due to the rapid spread of the Internet and the advancement in information technology. Users and researchers often have difficulty finding valuable information among the vast amount of data. It takes longer to search large databases of unrelated and related information, and data loss also occurs during this process. Text summarization systems are used to create information summaries automatically. A subset of the original text is produced with relevant information and topics without redundancy in automatic text summarization. Our study proposes a multilayer graph-based biomedical text summarization. A comprehensive graph was built from the given texts using semantic concepts and a multilayer graph. Tools such as MetaMap and OGER allow the extraction of concepts from the UMLS database, and SemRep can identify relationships between concepts. The result is three-layered: 1) Similarity-based on words, 2) Similarity-based on semantic concepts, and 3) Similarity-based on the co-occurrence of words. There have been various methods proposed for domain-independent summarization and biomedical texts. General summarization methods do not work well in the biomedical domain. Compared to other texts, biomedical texts contain many complex concepts, synonyms, abbreviations. Algorithms such as machine learning, graph modeling, optimization, and statistical methods have been used in biomedical text summarization. Different methods have demonstrated that domain-specific knowledge and semantic concepts produce more accurate summaries. The previous graph-based methods presented relationships in the text with simple graphs and one-dimensional views. As a starting point, it is important to create a richer graph that includes as many different and effective relationships as possible. Based on multilayer graphs, several methods for clustering and scoring sentences have been investigated. As a result, methods were chosen to produce a richer output while maintaining the relationships and information gleaned from the text. The approach used at this stage is clustering and ranking. Clustering refers to the creation of different groups of sentences based on multilayer graph clustering. A variety of heuristics are then used to extract the output sentences. As a part of defining heuristics, it is essential to understand how statistical features can be used for selection. In the sentence ranking process, multi-layered graphs are produced without clustering and with PageRank algorithms. Using this approach, we present two versions. Based on the ranking algorithm output list, the first version includes the top sentences. The second version involves calculating sentence length based on the number of concepts. We add this parameter as an effective parameter in our proposed method for selecting sentences. eva‎luation of the proposed method has been conducted with common approaches and tools in this field. The ROUGE and BertScore standard criteria, which compare and score the generated summary text to the article abstract as a golden summary, are two popular approaches. In the study, different algorithms and heuristics are eva‎luated, and the level of improvement is reported
استاد راهنما :
ناصر قديري مدرس
استاد مشاور :
مريم لطفي شهرضا، فابيو رينالدي
لينک به اين مدرک :

بازگشت