توصيفگر ها :
متنكاوي , استخراج مفهوم , پردازش زبان طبيعي , شناسايي موجوديتهاي نامدار
چكيده فارسي :
استخراج اطلاعات از متون زيستپزشكي، بخش مهمي از متنكاوي اين حوزه است كه از ابتدا به منظور تسهيل استفاده مجدد از دادههاي پزشكي مورد توجه قرار گرفتهاست. درگذشته استخراج اطلاعات به يافتن كلمه يا عبارتي شامل كلمات خاص، از متن و انتساب آن به بخشي از اطلاعات موجود در مراجع هستيشناسي محدود ميشد. در سالهاي اخير پيچيدگيهاي فراوان موجود در متون زيستپزشكي از يك سو و پيشرفت رويكردهاي جديد و كارآمد متنكاوي از سوي ديگر، استخراج اطلاعات از متون زيستپزشكي را به سمت استخراج مفاهيم سوق دادهاست. ديدگاه مبتنيبر مفهوم به عبارات متن، با درنظر گرفتن موقعيت هر كلمه در متن، ساختار نوشتاري آن و ارتباطي كه با ساير اجزاي متن دارد، ميتواند موجب بهبود كيفيت استخراج مفاهيم چندكلمهاي و نيز طبقهبندي دقيقتر اين مفاهيم شود.
براي استخراج مفاهيم از متون زيستپزشكي، از روشهاي مبتنيبر قواعد، روشهاي مبتني بر پردازش زبان طبيعي و انواع روشهاي مبتنيبر يادگيري ماشين و يادگيري عميق استفاده ميشود. ضعف عمدهي روشها اين است كه در استخراج مفهوم، بيشتر بر نقش كلمات به صورت مستقل تمركز شده است و ارتباطات معنايي بين آنها درنظر گرفته نشدهاست. ضعف ديگر برخي روشها اين است كه در مرحله مهندسي ويژگي، استخراج ويژگي به صورت نظارتشده انجام ميشود. در پژوهشهاي اخير رويكردهاي يادگيري ماشين، شبكههاي عصبي و تكنيك جاسازي كلمات مورد توجه قرارگرفتهاست.
با توجه به اهميت شناسايي ارتباط معنايي كلماتي كه در قالب عبارت چندكلمهاي به يك مفهوم اشاره ميكنند، در اين پاياننامه رويكردي مبتنيبر چهار نوع ورودي متفاوت ارائه شدهاست تا عبارات پزشكي از جنبههاي مختلف نوشتاري و معنايي مورد پردازش قرارگيرند. هر يك از وروديهاي مبتنيبر كاراكتر، مبتنيبر كلمه، مبتنيبر حالت كلمه و مبتنيبر واژهنامه در مدل، عبارات را براساس يك جنبه اطلاعاتي پردازش كرده و بردار ويژگي حاصل از آنها در يك لايه طبقهبندي مبتنيبر BiLSTM+CRF پردازش ميشود. نتايج ارزيابي نشان ميدهد كه اين مدل در شناسايي موجوديتهاي نامدار برروي مجموعهداده i2b2 2010به شاخص F1 برابر 90.06 رسيده است.
چكيده انگليسي :
Extracting information from biomedical texts is a crucial topic in text mining research for this field, which aims to increase the reusability of medical data. Information extraction previously involved finding a word or phrase containing specific words in the text and attributing it to the information contained in ontological references. In recent years, the many complexities in biomedical texts on the one hand and the development of new and efficient text mining approaches, on the other hand, have conducted the extraction of information from biomedical texts to the extraction of concepts. A concept-based approach to text expressions, considering the position of each word in the text, its written structure, and its relationship with other text components, can improve the quality of extraction of multiword concepts and more accurate classification of these concepts.
Rule-based approaches, natural language processing techniques, and machine learning methods are used to extract biomedical concepts. For concept extraction, the main weakness is focusing more on words independently and not considering their semantic relationships. It is another drawback of some strategies that feature extraction is supervised during the feature engineering stage. Recent research has used machine learning techniques, neural networks, and word embedding techniques.
Due to the importance of identifying the semantic relationships of words that form a multiword phrase and refer to a concept, this thesis presents an approach based on four different types of embedding to process medical expressions from their written and semantic aspects. The resulting feature vector is then processed in a BiLSTM+CRF classification layer. On the i2b2 2010 dataset, this model has achieved an F1 score of 90.06 in recognizing named entities.