شماره مدرك :
17324
شماره راهنما :
15169
پديد آورنده :
شاهرخ شهركي، فهيمه
عنوان :

ارائه روش تركيبي براي استخراج مفاهيم از متون زيست‌پزشكي با استفاده از روابط معنايي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
نرم افزار
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1400
صفحه شمار :
چهارده، 79ص. : مصور، جدول، نمودار
استاد راهنما :
ناصر قديري مدرس
توصيفگر ها :
متن‌كاوي , استخراج مفهوم , پردازش زبان طبيعي , شناسايي موجوديت‌هاي نام‌دار
استاد داور :
سمانه حسيني، زينب زالي
تاريخ ورود اطلاعات :
1400/11/29
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1400/12/11
كد ايرانداك :
2807302
چكيده فارسي :
استخراج اطلاعات ‌از متون ‌زيست‌پزشكي، بخش مهمي از متن‌كاوي اين ‌حوزه است كه از ابتدا به منظور تسهيل استفاده مجدد از داده‌هاي پزشكي مورد توجه قرار گرفته‌است. درگذشته استخراج اطلاعات به يافتن كلمه يا عبارتي شامل كلمات خاص، از متن و انتساب آن به بخشي از اطلاعات موجود در مراجع هستي‌شناسي محدود مي‌شد. در سال‌هاي اخير پيچيدگي‌هاي فراوان موجود در متون زيست‌پزشكي از يك سو و پيشرفت رويكردهاي جديد و كارآمد متن‌كاوي از سوي ديگر، استخراج اطلاعات از متون زيست‌پزشكي را به سمت استخراج مفاهيم سوق داده‌است. ديدگاه مبتني‌بر مفهوم به عبارات متن، با درنظر گرفتن موقعيت هر كلمه در متن، ساختار نوشتاري آن و ارتباطي كه با ساير اجزاي متن دارد، مي‌تواند موجب بهبود كيفيت استخراج مفاهيم چندكلمه‌اي و نيز طبقه‌بندي دقيق‌تر اين مفاهيم شود. براي استخراج مفاهيم از متون زيست‌پزشكي، از روش‌هاي مبتني‌بر قواعد، روش‌هاي مبتني بر پردازش زبان طبيعي و انواع روش‌هاي مبتني‌بر يادگيري ماشين و يادگيري عميق استفاده مي‌شود. ضعف عمده‌ي روش‌ها اين است كه در استخراج مفهوم، بيشتر بر نقش كلمات به صورت مستقل تمركز شده است و ارتباطات معنايي بين آنها در‌نظر گرفته نشده‌است. ضعف ديگر برخي روش‌ها اين است كه در مرحله مهندسي ويژگي، استخراج ويژگي به صورت نظارت‌شده انجام مي‌شود. در پژوهش‌هاي اخير رويكردهاي يادگيري ‌ماشين، شبكه‌هاي عصبي و تكنيك جاسازي ‌كلمات مورد توجه قرار‌گرفته‌است. با توجه به اهميت شناسايي ارتباط معنايي كلماتي كه در قالب عبارت چندكلمه‌اي به يك مفهوم‌ اشاره مي‌كنند، در اين پايان‌نامه رويكردي مبتني‌بر چهار نوع ورودي متفاوت ارائه شده‌است تا عبارات پزشكي از جنبه‌هاي مختلف نوشتاري و معنايي مورد پردازش قرارگيرند. هر يك از ورودي‌هاي مبتني‌بر كاراكتر، مبتني‌بر كلمه، مبتني‌بر حالت كلمه و مبتني‌بر واژه‌نامه در مدل، عبارات را براساس يك جنبه اطلاعاتي پردازش كرده و بردار ويژگي حاصل از آن‌ها در يك لايه طبقه‌بندي مبتني‌بر BiLSTM+CRF پردازش مي‌شود. نتايج ارزيابي نشان مي‌دهد كه اين مدل در شناسايي موجوديت‌هاي نام‌دار برروي مجموعه‌داده i2b2 2010به شاخص F1 برابر 90.06 رسيده است.
چكيده انگليسي :
Extracting information from biomedical texts is a crucial topic in text mining research for this field, which aims to increase the reusability of medical data. Information extraction previously involved finding a word or phrase containing specific words in the text and attributing it to the information contained in ontological references. In recent years, the many complexities in biomedical texts on the one hand and the development of new and efficient text mining approaches, on the other hand, have conducted the extraction of information from biomedical texts to the extraction of concepts. A concept-based approach to text expressions, considering the position of each word in the text, its written structure, and its relationship with other text components, can improve the quality of extraction of multiword concepts and more accurate classification of these concepts. Rule-based approaches, natural language processing techniques, and machine learning methods are used to extract biomedical concepts. For concept extraction, the main weakness is focusing more on words independently and not considering their semantic relationships. It is another drawback of some strategies that feature extraction is supervised during the feature engineering stage. Recent research has used machine learning techniques, neural networks, and word embedding techniques. Due to the importance of identifying the semantic relationships of words that form a multiword phrase and refer to a concept, this thesis presents an approach based on four different types of embedding to process medical expressions from their written and semantic aspects. The resulting feature vector is then processed in a BiLSTM+CRF classification layer. On the i2b2 2010 dataset, this model has achieved an F1 score of 90.06 in recognizing named entities.
استاد راهنما :
ناصر قديري مدرس
استاد داور :
سمانه حسيني، زينب زالي
لينک به اين مدرک :

بازگشت