اكبري، علي

عنوان

بهبود نتايج الگوريتم هاي استخراج عبارات كليدي در اسناد فارسي با تأكيد بر تركيب اطلاعات

مقطع تحصيلي

كارشناسي ارشد

گرايش تحصيلي

نرم افزار

محل تحصيل

اصفهان : دانشگاه صنعتي اصفهان

سال دفاع

1402

صفحه شمار

ده، 66ص : مصور، جدول

توصيفگر ها

استخراج عبارت كليدي , استخراج كلمه كليدي , الگوريتم , تركيب الگوريتم

تاريخ ورود اطلاعات

1402/07/29

كتابنامه

رشته تحصيلي

مهندسي كامپيوتر

دانشكده

مهندسي برق و كامپيوتر

تاريخ ويرايش اطلاعات

1402/08/01

كد ايرانداك

2975852

چكيده فارسي

عبارات‌كليدي، عبارت¬هاي اصلي و كانوني يك متن و مضمون اصلي مطلب هستند. تهيه‌ي اين واژگان به روش سنتي نيازمند صرف زمان و همچنين دانش تخصصي راجع به موضوع متن است. ازآنجاكه عبارات ‌كليدي كاربردهاي فراواني در به‌كارگيري مستندات الكترونيكي دارند، شناسايي روش‌هاي خودكار و بهبوديافته براي استخراج اين دسته از واژگان هميشه موردتوجه بوده است. در زبان‌هاي مختلف از جمله زبان انگليسي پژوهش¬هاي مطرحي توسعه داده شده است كه عمليات استخراج خودكار عبارت‌كليدي را به‌صورت خودكار انجام مي‌دهند. اما در زبان فارسي پژوهش¬هاي كمي وجود دارند تا فرايند استخراج عبارت‌كليدي را به‌صورت خودكار انجام دهند و به همين دليل نياز به بهبود الگوريتم‌هاي مطرح براي زبان فارسي وجود دارد. برخي از الگوريتم¬هاي اين حوزه وابسته به زبان بوده و نياز است تا براي زبان فارسي نيز به‌خوبي تنظيم شوند. در اين مستند بنا داريم تا به بررسي روش‌هاي مختلف بكار گرفته‌شده براي اين منظور بپردازيم. در اين پايان‌نامه مهم‌ترين الگوريتم‌هاي استخراج عبارت‌كليدي بررسي شده و چالش‌هاي استفاده از آن‌ها در زبان فارسي مورد تجزيه‌وتحليل قرار گرفته‌اند. بدين منظور، الگوريتم¬هاي انتخاب شده به شيوه¬هاي مختلف پياده‌سازي شده‌اند: از جمله تركيب متوالي الگوريتم‌هاي‌ رتبه‌متن و استخراج خودكار سريع عبارت‌كليدي و همچنين استفاده‌ي هم‌زمان از دو الگوريتم ذكرشده. مجموعه‌داده استفاده شده در اين مستند، مجموعه‌داده PerKey است. اين مجموعه‌داده، شامل اخبار و مقالات خبري است كه از خبرگزاري‌هاي معتبر جمع‌آوري شده است. در انتها نتايج به‌دست‌آمده از روش¬ پيشنهادي با نتايج به‌دست‌آمده از ديگر الگوريتم‌هاي موجود مورد مقايسه قرار گرفته و نتايج به‌دست‌آمده با معيارهاي ارزيابي رايج حوزه متن‌كاوي مورد ارزيابي قرار گرفته‌اند. طبق نتايج به‌دست‌آمده استفاده هم‌زمان از دو الگوريتم ذكر شده باعث بهبود معيار‌هاي ارزيابي شده است. اين امر به دليل استفاده از مزيت‌هاي دو الگوريتم به‌صورت هم‌زمان و كاهش معايب هركدام از الگوريتم‌ها است. در واقع استفاده از دو الگوريتم به‌صورت هم‌زمان نقاط ضعف هر كدام را پوشش داده و باعث افزايش دقت شده است.

چكيده انگليسي

Keywords are the main and focal words of a text and the main content of the article. Preparation of these words in the traditional way requires time and specialized knowledge about the subject of the text. Since keywords have many uses in the use of electronic documents, identifying automatic and improved methods for extracting this category of words has always been of interest. Because the operation of extracting keywords or key phrases from specialized and scientific texts is a specialized and time-consuming task, various algorithms have been designed and implemented for the automatic specialized extraction of keywords and key phrases in documents. In this documentary, we intend to examine the various methods used for this purpose. The reviewed algorithms and methods are used for all kinds of scientific documents and can be implemented in different languages. In this thesis, the most important and high-quality keyword extraction algorithms have been investigated and the challenges of using them in the Persian language have been analyzed. In order to use these prominent algorithms, various ideas have been considered and implemented, which have been discussed in detail.

استاد راهنما

عليرضا بصيري

استاد داور

مهران صفاياني , الهام محمودزاده

لينک به اين مدرک

https://library.iut.ac.ir/dl/search/default.aspx?Term=18919&Field=0&DTC=107