شماره مدرك :
16035
شماره راهنما :
14320
پديد آورنده :
ساماني، مهدي
عنوان :

ارائه يك چارچوب براي ارزيابي مقياس‌پذير شباهت در گراف‌هاي متني

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
نرم افزار
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1399
صفحه شمار :
ده ص. : مصور، جدول، نمودار. 56ص. : مصور، جدول، نمودار
استاد راهنما :
ناصر قديري مدرس
توصيفگر ها :
گراف , شباهت معنايي , وزن‌دهي انتخابي , آپاچي اسپارك , يادگيري بدون ناظر , الگوريتم توزيع‌شده
استاد داور :
مهران صفاياني، عليرضا بصيري
تاريخ ورود اطلاعات :
1399/09/15
كتابنامه :
كتابنامه
رشته تحصيلي :
كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1399/09/16
كد ايرانداك :
2655019
چكيده فارسي :
چكيده گراف و پايگاه دادههاي مبتني بر گراف امروزه كاربردهاي فراواني در حوزههاي مختلف از جمله متنكاوي دارند استتتفاده از گراف براي غنيتر شتتتدن متدلهتا شتتتده استتتت الگوريتمهتاي پردازش زبتان طبيعي نيز بتا بهرهگيري از گراف نمتايش روابط ميتان موجوديتتهتا بتاعت توانستتتهاند روابط ستتاختاري متن را بهتر مدلستتازي و در نتيجه عملكرد بهتري داشتتته با تت ند با اين وجود همچنان نياز به افزايش دقت در ش ستاخت گراف و تخصتيص وزنها بعنوان چالشتي مهم مطر استت برخي روشتهاي اراشه شتده در اين زمينه نيز براي گرافهاي بزرگ دچار كاهش جدي كارآيي شده و مقياسپذيري كمي دارند در اين پژوهش روشي براي مدلسازي متن توسط گراف به منظور انجام پرسوجو براي ارزيابي تباهت متون اراشه تده ا تت در اين روش ابتدا گراف متناظر با متن با بهرهگيري از مدل تازي كلمات و موجوديتهاي اسمي س شس ش به وستتيلهي مدل از پيشآموزشديدهي BERT ايجاد ميشتتود ستتپ گرههاي گراف در دومرحله وزندهي ميشتتوند در مرحلهي اول وزندهي گرههايي كه عموميت بااليي دارند وزن بيشتتري به دستت خواهند آورد اما مرحلهي دوم وزندهي به وستيلهي گراف حاصتل شتده از متن پرسوجو انجام ميشتتود گرههايي در اين مرحله وزندهي با اهميت تلقي ميشتتوند كه به صتتورت خام منظوره با متن پرسوجو از تعيين گرههاي با اهميت در گراف شتتباهت معنايي ميان متن پرسوجو و متون موجود در پايگاه داده ارتباط نزديكي داشتتته باشتتند پ ستنجيده ميشتود تمامي مراحل اين چارچوب با بهرهگيري از خط لولههاي پردازش زبان طبيعي در بستتر مقياسپذير استپارك انجام شتده استت كارايي مدل به صتورت توزيعشتده و غيرتوزيعشتده و همچنين مقياسپذيري آن با استتفاده از خوشتهي استپارك بررستي و ارزيابي شتده استي آزمايشات انجام شده براي ارزيابي دقت با روش ضريب همبستگي پيرسون نشاندهندهي عملكرد بهتر روش اراشه شده نسبت به ساير رقباي خود ميباشد كلمتات كليتدي 1 گراف 2 شتتتبتاهتت معنتايي 3 وزندهي انتختابي 4 آپتاچي استتتپتارك 5 يتادگيري بتدون نتاظر 6 7 BERT وزندهي انتخابي 8 الگوريتم توزيعشده
چكيده انگليسي :
Presenting a Framework for Scalable Similarity Evaluation in Text Graphs Mahdi Samani m samani@ec iut ac ir Date of Submission 09 09 2020 Department of Electrical and Computer Engineering 83111 Iran Isfahan University of Technology Isfahan 84156 Degree M Sc Language FarsiSupervisor Dr Nasser Ghadiri nghadiri@ iut ac irAbstractGraphs and graph databases are applicable over a wide range of applications like text mining Using graphs torepresent relationships between entities has enriched the models Natural language processing algorithms usegraphs to model structural relationships of texts efficiently resulting in improved performance However theneed to increase the accuracy of graph construction and weight allocation remains an important challenge Some existing methods reduce the efficiency and lack scalability for large graphs In this study we propose anovel graph based method for text modeling and running a query to evaluate the similarity of text segments In this method the graph corresponding to the text is first created by modeling words and named entities bythe state of the are pre trained BERT model Graph nodes are then weighted in two stages In the first stagethe nodes with more generalization obtain higher weights The second weighting stage is done by the graphobtained from the query text In this weighting step nodes are considered important if they are specificallyrelated to the query text After determining the important nodes in the graph the semantic similarity betweenthe query text and the texts in the database is measured The whole process of this framework uses naturallanguage processing pipeline in Apache Spark scalable platform The efficiency of the model was evaluatedfor both distributed and non distributed configuration as well as its scalability by using a Spark cluster Evaluation of the accuracy using the Pearson correlation coefficient show that the proposed method performsmuch more efficient than its competitors KeywordsGraph Database Semantic Similarity Selective Weight Apache Spark Unsupervised Learning BERT Selective Weighting Distributed Algorithm
استاد راهنما :
ناصر قديري مدرس
استاد داور :
مهران صفاياني، عليرضا بصيري
لينک به اين مدرک :

بازگشت