شماره مدرك :
18856
شماره راهنما :
16356
پديد آورنده :
رئيسي واناني، زهرا
عنوان :

تشخيص موجوديت هاي اسمي در زبان فارسي با تمركز بر تشخيص خدمات شغلي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
دوازده، 69
توصيفگر ها :
متن كاوي , استخراج اطلاعات , تشخيص موجوديت هاي اسمي , يادگيري عميق , خدمت
تاريخ ورود اطلاعات :
1402/07/19
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/07/22
كد ايرانداك :
2971169
چكيده فارسي :
موجوديت‌هاي اسمي، واحدهاي اساسي يك متن هستند. هدف اصلي توسعه سيستم‌ تشخيص موجوديت‌هاي اسمي، دسته‌بندي كلمات يك متن به دسته‌هاي مهمي مانند شخص، سازمان و مكان است. تشخيص موجوديت‌هاي اسمي، كاربرد زيادي در زمينه‌هاي مختلف نظير سيستم‌هاي استخراج اطلاعات، پرسش و پاسخ و خلاصه‌سازي دارد. روش‌هاي مختلفي براي حل مسئله تشخيص موجوديت‌هاي اسمي ارائه شده است كه مي‌توان آن‌ها را در چهار دسته‌ اصلي شامل روش‌هاي مبتني بر قاعده، روش‌هاي بدون نظارت، روش‌هاي با نظارت و روش‌هاي مبتني بر يادگيري عميق قرارداد. تشخيص موجوديت‌هاي اسمي، هنوز هم براي زبان‌هاي كم منبع مانند زبان فارسي، يك چالش اساسي محسوب مي‌شود؛ زيرا اين زبان‌ها با كمبود مجموعه‌داده‌هاي مناسب براي حل اين مسئله مواجه هستند. اين موضوع زماني بيشتر رخ مي‌نمايد كه بخواهيم يك نوع موجوديت اسمي جديد را شناسايي كنيم كه در پژوهش‌هاي قبلي ناديده گرفته شده است. در اين صورت ابتدا بايد يك مجموعه‌داده مناسب براي اين كار ايجاد شود. با توجه ‌به اينكه اكثر مطالعات انجام شده در حوزه‌ تشخيص موجوديت‌هاي اسمي، به طور ويژه براي داده‌هاي خبري تنظيم شده‌اند، موجوديت‌هاي محدودي در زبان فارسي قابل شناسايي هستند. يكي از موجوديت‌هاي اسمي مغفول، موجوديت خدمت است كه مي‌تواند كاربردهاي مهمي در زمينه‌هاي مختلف از جمله سرويس‌هاي شغل‌يابي و چت‌بات آنلاين داشته باشد. هدف اصلي اين پژوهش تشخيص موجوديت اسمي خدمت است، اما با توجه به اينكه موجوديت اسمي شهر نيز مي‌تواند در كنار خدمت حائز اهميت باشد، شناسايي موجوديت اسمي شهر هم در اين پژوهش پوشش داده شده است. بدين منظور، ابتدا مجموعه داده‌اي كه داراي جملات متنوع در حوزه خدمت و شهر مي‌باشد، تهيه و به دو روش مختلف IO و IOB برچسب‌گذاري شده است. سپس چهار مدل مبتني بر يادگيري عميق شامل مدل BiLSTM+ CRF، مدل BiLSTM+ Softmax، مدل BiLSTM+ CNN+ Softmax و مدلBiLSTM+ CNN+ CRF، براي آموزش سيستم استفاده شده‌اند. از بين چهار مدل به كار گرفته شده در اين پژوهش، مدل BiLSTM+ CRF در حالت برچسب‌گذاري به شيوه IOB با متوسط صحت 45/96 درصد، بهترين عملكرد را داشته است.
چكيده انگليسي :
Named entities are the basic units of a text. The main goal of developing a named entity recognition system is to categorize words in a text into important categories such as person, organization, and location. Named entity recognition has various applications in different domains, including information extraction, question-answering, and summarization. Several different approaches have been proposed to solve the named entity recognition problem, and they can be categorized into four main groups: rule-based methods, unsupervised methods, supervised methods, and deep learning-based methods.Named entity recognition remains a fundamental challenge, especially for low-resource languages like Persian, as these languages face a scarcity of suitable datasets for solving this problem. This challenge becomes more prominent when trying to identify a new type of named entity that has been overlooked in previous research, requiring the creation of an appropriate dataset. Considering that most NER studies have been focused on news data, the recognition of diverse entities in Persian is limited. One overlooked named entity is the "service entity," which can have significant applications in various domains, such as job searching services and online chatbots. The primary goal of this research is to recognize service entities, but it also covers the identification of city entities alongside services. To achieve this, datasets that include various sentences related to services and cities are prepared and labeled using two different methods: IO and IOB tagging. Four deep learning models are used for training the system, including BiLSTM+CRF, BiLSTM+Softmax, BiLSTM+CNN+Softmax, and BiLSTM+CNN+CRF. Among these models, the BiLSTM+CRF model with IOB tagging achieves the best performance with an average accuracy of 96.45%.
استاد راهنما :
عليرضا بصيري
استاد داور :
مهران صفاياني , ناصر قديري مدرس
لينک به اين مدرک :

بازگشت