عنوان :
بهبود نتايج الگوريتم هاي استخراج عبارات كليدي در اسناد فارسي با تأكيد بر تركيب اطلاعات
مقطع تحصيلي :
كارشناسي ارشد
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
ده، 66ص : مصور، جدول
توصيفگر ها :
استخراج عبارت كليدي , استخراج كلمه كليدي , الگوريتم , تركيب الگوريتم
تاريخ ورود اطلاعات :
1402/07/29
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/08/01
چكيده فارسي :
عباراتكليدي، عبارت¬هاي اصلي و كانوني يك متن و مضمون اصلي مطلب هستند. تهيهي اين واژگان به روش سنتي نيازمند صرف زمان و همچنين دانش تخصصي راجع به موضوع متن است. ازآنجاكه عبارات كليدي كاربردهاي فراواني در بهكارگيري مستندات الكترونيكي دارند، شناسايي روشهاي خودكار و بهبوديافته براي استخراج اين دسته از واژگان هميشه موردتوجه بوده است. در زبانهاي مختلف از جمله زبان انگليسي پژوهش¬هاي مطرحي توسعه داده شده است كه عمليات استخراج خودكار عبارتكليدي را بهصورت خودكار انجام ميدهند. اما در زبان فارسي پژوهش¬هاي كمي وجود دارند تا فرايند استخراج عبارتكليدي را بهصورت خودكار انجام دهند و به همين دليل نياز به بهبود الگوريتمهاي مطرح براي زبان فارسي وجود دارد. برخي از الگوريتم¬هاي اين حوزه وابسته به زبان بوده و نياز است تا براي زبان فارسي نيز بهخوبي تنظيم شوند. در اين مستند بنا داريم تا به بررسي روشهاي مختلف بكار گرفتهشده براي اين منظور بپردازيم. در اين پاياننامه مهمترين الگوريتمهاي استخراج عبارتكليدي بررسي شده و چالشهاي استفاده از آنها در زبان فارسي مورد تجزيهوتحليل قرار گرفتهاند. بدين منظور، الگوريتم¬هاي انتخاب شده به شيوه¬هاي مختلف پيادهسازي شدهاند: از جمله تركيب متوالي الگوريتمهاي رتبهمتن و استخراج خودكار سريع عبارتكليدي و همچنين استفادهي همزمان از دو الگوريتم ذكرشده. مجموعهداده استفاده شده در اين مستند، مجموعهداده PerKey است. اين مجموعهداده، شامل اخبار و مقالات خبري است كه از خبرگزاريهاي معتبر جمعآوري شده است. در انتها نتايج بهدستآمده از روش¬ پيشنهادي با نتايج بهدستآمده از ديگر الگوريتمهاي موجود مورد مقايسه قرار گرفته و نتايج بهدستآمده با معيارهاي ارزيابي رايج حوزه متنكاوي مورد ارزيابي قرار گرفتهاند. طبق نتايج بهدستآمده استفاده همزمان از دو الگوريتم ذكر شده باعث بهبود معيارهاي ارزيابي شده است. اين امر به دليل استفاده از مزيتهاي دو الگوريتم بهصورت همزمان و كاهش معايب هركدام از الگوريتمها است. در واقع استفاده از دو الگوريتم بهصورت همزمان نقاط ضعف هر كدام را پوشش داده و باعث افزايش دقت شده است.
چكيده انگليسي :
Keywords are the main and focal words of a text and the main content of the article. Preparation of these words in the traditional way requires time and specialized knowledge about the subject of the text. Since keywords have many uses in the use of electronic documents, identifying automatic and improved methods for extracting this category of words has always been of interest. Because the operation of extracting keywords or key phrases from specialized and scientific texts is a specialized and time-consuming task, various algorithms have been designed and implemented for the automatic specialized extraction of keywords and key phrases in documents. In this documentary, we intend to examine the various methods used for this purpose. The reviewed algorithms and methods are used for all kinds of scientific documents and can be implemented in different languages. In this thesis, the most important and high-quality keyword extraction algorithms have been investigated and the challenges of using them in the Persian language have been analyzed. In order to use these prominent algorithms, various ideas have been considered and implemented, which have been discussed in detail.
استاد راهنما :
عليرضا بصيري
استاد داور :
مهران صفاياني , الهام محمودزاده