توصيفگر ها :
متن كاوي , استخراج اطلاعات , تشخيص موجوديت هاي اسمي , يادگيري عميق , خدمت
چكيده فارسي :
موجوديتهاي اسمي، واحدهاي اساسي يك متن هستند. هدف اصلي توسعه سيستم تشخيص موجوديتهاي اسمي، دستهبندي كلمات يك متن به دستههاي مهمي مانند شخص، سازمان و مكان است. تشخيص موجوديتهاي اسمي، كاربرد زيادي در زمينههاي مختلف نظير سيستمهاي استخراج اطلاعات، پرسش و پاسخ و خلاصهسازي دارد. روشهاي مختلفي براي حل مسئله تشخيص موجوديتهاي اسمي ارائه شده است كه ميتوان آنها را در چهار دسته اصلي شامل روشهاي مبتني بر قاعده، روشهاي بدون نظارت، روشهاي با نظارت و روشهاي مبتني بر يادگيري عميق قرارداد. تشخيص موجوديتهاي اسمي، هنوز هم براي زبانهاي كم منبع مانند زبان فارسي، يك چالش اساسي محسوب ميشود؛ زيرا اين زبانها با كمبود مجموعهدادههاي مناسب براي حل اين مسئله مواجه هستند. اين موضوع زماني بيشتر رخ مينمايد كه بخواهيم يك نوع موجوديت اسمي جديد را شناسايي كنيم كه در پژوهشهاي قبلي ناديده گرفته شده است. در اين صورت ابتدا بايد يك مجموعهداده مناسب براي اين كار ايجاد شود. با توجه به اينكه اكثر مطالعات انجام شده در حوزه تشخيص موجوديتهاي اسمي، به طور ويژه براي دادههاي خبري تنظيم شدهاند، موجوديتهاي محدودي در زبان فارسي قابل شناسايي هستند. يكي از موجوديتهاي اسمي مغفول، موجوديت خدمت است كه ميتواند كاربردهاي مهمي در زمينههاي مختلف از جمله سرويسهاي شغليابي و چتبات آنلاين داشته باشد. هدف اصلي اين پژوهش تشخيص موجوديت اسمي خدمت است، اما با توجه به اينكه موجوديت اسمي شهر نيز ميتواند در كنار خدمت حائز اهميت باشد، شناسايي موجوديت اسمي شهر هم در اين پژوهش پوشش داده شده است. بدين منظور، ابتدا مجموعه دادهاي كه داراي جملات متنوع در حوزه خدمت و شهر ميباشد، تهيه و به دو روش مختلف IO و IOB برچسبگذاري شده است. سپس چهار مدل مبتني بر يادگيري عميق شامل مدل BiLSTM+ CRF، مدل BiLSTM+ Softmax، مدل BiLSTM+ CNN+ Softmax و مدلBiLSTM+ CNN+ CRF، براي آموزش سيستم استفاده شدهاند. از بين چهار مدل به كار گرفته شده در اين پژوهش، مدل BiLSTM+ CRF در حالت برچسبگذاري به شيوه IOB با متوسط صحت 45/96 درصد، بهترين عملكرد را داشته است.
چكيده انگليسي :
Named entities are the basic units of a text. The main goal of developing a named entity recognition system is to categorize words in a text into important categories such as person, organization, and location. Named entity recognition has various applications in different domains, including information extraction, question-answering, and summarization. Several different approaches have been proposed to solve the named entity recognition problem, and they can be categorized into four main groups: rule-based methods, unsupervised methods, supervised methods, and deep learning-based methods.Named entity recognition remains a fundamental challenge, especially for low-resource languages like Persian, as these languages face a scarcity of suitable datasets for solving this problem. This challenge becomes more prominent when trying to identify a new type of named entity that has been overlooked in previous research, requiring the creation of an appropriate dataset. Considering that most NER studies have been focused on news data, the recognition of diverse entities in Persian is limited. One overlooked named entity is the "service entity," which can have significant applications in various domains, such as job searching services and online chatbots. The primary goal of this research is to recognize service entities, but it also covers the identification of city entities alongside services. To achieve this, datasets that include various sentences related to services and cities are prepared and labeled using two different methods: IO and IOB tagging. Four deep learning models are used for training the system, including BiLSTM+CRF, BiLSTM+Softmax, BiLSTM+CNN+Softmax, and BiLSTM+CNN+CRF. Among these models, the BiLSTM+CRF model with IOB tagging achieves the best performance with an average accuracy of 96.45%.