شماره مدرك :
18817
شماره راهنما :
16323
پديد آورنده :
جاويدمحتشم، محمد
عنوان :

بازسازي داده‌هاي بارندگي روزانه داراي دوره‌هاي مفقودي، با استفاده‌ از ‌روش‌هاي محاسبه چندگانه با تطبيق ميانگين پيش‌بيني و جنگل تصادفي

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
منابع آب
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
هفده، 260ص: مصور، جدول، نمودار
توصيفگر ها :
بازسازي داده‌ها , جنگل تصادفي , تطبيق ميانگين پيش‌بيني‌كننده , بارندگي روزانه , يادگيري ماشين
تاريخ ورود اطلاعات :
1402/07/11
كتابنامه :
كتابنامه
رشته تحصيلي :
علوم و مهندسي آب
دانشكده :
مهندسي كشاورزي
تاريخ ويرايش اطلاعات :
1402/07/12
كد ايرانداك :
2956545
چكيده فارسي :
چكيده بارش از عوامل اصلي هوا و اقليم‌شناسي مي‌باشد. برآورد دقيق داده‌هاي بارش روزانه ازدست‌رفته كاري دشوار است. در اختيار داشتن دوره آماري طولاني‌مدت و كامل از نظر علم آمار اولين نياز تحليل‌هاي قابل‌اعتماد در آب‌وهواشناسي است. تحليل سري داده‌هاي ناقص، اريب هستند. بنابراين نياز به برآورد داده‌هاي گمشده است. طيف گسترده‌اي از روش‌ها براي تكميل مقادير مفقوده وجود دارد، اما درصد خلأهاي آماري يكي از عوامل اصلي محدودكننده كاربرد آن‌ها است. منطقه موردمطالعه دشت مشهد-چناران، با مساحت 9909 كيلومترمربع، بخشي از غرب حوضه آبريز قره‌قوم واقع در شمال شرقي ايران مي¬باشد. به‌طوركلي از 34 ايستگاه باران‌سنجي موجود در دشت مشهد-چناران، تعداد 30 ايستگاه باران‌سنجي پس از انجام آزمون كفايت داده مورداستفاده قرار گرفت. هدف اين پژوهش بازسازي و تكميل داده‌هاي مفقوده اين ايستگاه‌ها بادقت بالا و ارائه سري آماري تكميل‌شده (حداقل 30 سال) مي‌باشد. در مطالعه حاضر دو روش براي بازسازي و تكميل مقادير داده‌هاي بارش ازدست‌رفته استفاده مي‌شود؛ محاسبات چندگانه توسط معادلات زنجيره‌اي از طريق تطبيق ميانگين پيش‌بيني‌كننده (PMM) و الگوريتم يادگيري ماشين جنگل تصادفي (RF)موجود در نرم‌افزار برنامه‌نويسي R. براي افزايش دقت، كاهش خطا و بهبود تفسير داده‌ها در فرايند بازسازي با روش‌هاي مذكور، بر روي ايستگاه‌هاي حاضر در اين طرح، تحليل خوشه‌اي توسط روش سلسله‌مراتبي Ward صورت‌گرفت؛ الگوريتم Ward.D2 بر اساس معيار ضريب همبستگي كوفنتيك (0.73) به‌عنوان بهترين الگوريتم در ميان الگوريتم‌هاي موجود در اين روش انتخاب‌شد. تعداد خوشه‌هاي به‌دست‌آمده در اين روش، در بهينه‌ترين حالت، بر اساس معيار ميانگين عرض سيلهوت (0.26)، تعداد 8 خوشه انتخاب شد و 30 ايستگاه باران‌سنجي حاضر در اين پژوهش براساس ميانگين و انحراف‌معيار عمق بارندگي فصلي، موقعيت جغرافيايي (طول و عرض جغرافيايي) و ارتفاع از سطح دريا در اين 8 خوشه دسته‌بندي شدند. طول دوره آماري در هر خوشه براساس سال پايه مشترك ايستگاه‌هاي آن خوشه، تعيين گرديد. در ادامهيك سري كامل از داده‌هاي روزانه در بازه زماني محدودتر (از سال 1395 تا 1397) به صورت مصنوعي و كاملا تصادفي در 6 سطح (5%، 10%، 15%، 20%، 30% و 40%) توسط نرم‌افزار Rمفقود گرديد تا ارزيابي دقيق‌تري از مدل‌هاي موردنظر در حين بازسازي و اعتبارسنجي مدل و مقايسه مدل‌ها با يك‌ديگر صورت‌گيرد، براي اين كار از 8 ايستگاه باران‌سنجي كه در بازه‌زماني ذكر شده داراي سري كاملي از دادهاي بارش روزانه بودند، استفاده گرديد. سپس سري ناقص شده، توسط دو روش PMM و RF تمكيل شده و توسط معيارهاي عملكرد dr و R2 و همچنين معيارهاي خطاسنجي RMSE, NRMSE, GSD, CRM, MBE, MAE و RLE در مقياس روزانه و ماهانه مورد ارزيابي قرارگرفتند. بر اين اساس تعداد سري‌هاي كامل در روش PMM، 5 (m=5) و تعداد تكرار 50 (maxit=50) به عنوان مقادير بهينه پارامترهاي تابع اين مدل انتخاب شده و مبناي بازسازي با روش PMM قرارگرفتند. در روش RF نيز تعداد درختان محاسبه 500 (n_est=500) و تعداد تكرار 100 (max_iter=100) به عنوان پارامترهاي بهينه مدل انتخاب شدند. همچنين براساس معيارهاي عملكرد و خطاي مدل‌ها، روش RF در اكثر سطوح مفقودي عملكرد بهتري را از خود نشان‌داد و داده‌هاي بازسازي‌شده به مقادير واقعي خود نزديك‌تر بودند. در انتها عمليات بازسازي برروي داده‌هاي اصلي (داده‌هاي مفقوده طولاني مدت) ايستگاه‌هاي باران‌سنجي در خوشه‌هاي موردنظر توسط دو روش PMM و RF صورت پذيرفت، نتايج ارزيابي مدل نشان‌داد كه روش RF در اكثر خوشه‌ها از عملكرد بهتري نسبت به روش PMM برخورداراست و تنها در مواردي كه ايستگاه‌ها داراي خلا آماري شديدي بوده و يا داده صفر زيادي در سري آماري خود دارند، دچار افت عملكرد مي‌شوند و داده‌ها را بيش‌از مقدار واقعي خود بازسازي مي‌كند، به نظر مي‌رسد به طول دوره آماري نيز مربوط مي‌باشد.
چكيده انگليسي :
Abstract Precipitation is one of the most important part of weather and climatology. prepare an accurate estimation of daily precipitation data is difficult. First requirement of analyzing in meteorology is preparing the statistical data for a long-term. The analysis of incomplete data series is biased. There is a serious need for the estimation of the lost data. Although there are broad ranges of methods to complete the lost data, percentage of statistical gaps is known as one of the most important limitation of their utilization. Under-studied area of Mashhad-Chennaran plain, with area of 9909 square kilometers, which is part of the western part of the Qaraqom drainage basin located in the northeast of Iran. After the data adequacy test, 30 rain gauge stations out of 34 rain gauge stations in Mashhad-Chennaran plain were used in this research. The aim of this thesis is reconstruct the lost data of rain gauge stations with high accuracy to present a completed statistical series (at least 30 years). The present study compares two methods for restoring and completing lost rainfall data values, which are included: Multiple calculations by chain equations through matching predictive mean (PMM) and random forest (RF) machine learning algorithm available in R programming software. In order to increase accuracy, reduce errors and improve the data interpretation with the mentioned methods a cluster analysis was employed on the stations in this project by Ward's hierarchical method. This algorithm was selected as the best algorithm among the existing algorithms in this method based on the Cofentic correlation coefficient criterion (0.73). The 8 clusters were selected by the optimal case and the average width of the silhouette (0.26). Moreover, the 30 rain gauge stations were selected based on the average and standard deviation of seasonal rainfall depth, geographic location (longitude and latitude) and Altitude above sea level were categorized into the mentioned clusters. The duration of the statistical period in each cluster was determined based on the common base year of the stations in that cluster. In the next step, a complete series of daily data with more time limitation frame (from 2015 to 2017) at 6 levels (5%, 10%, 15%, 20%, 30% and 40%) were lost by R software, artificially and completely randomly, to assess the models more accurate during the reconstruct and validation process, and to compare the models of the 8 rain gauge stations that had a complete series of daily rainfall data were used in the mentioned period. Then the incomplete series was ccompleted by PMM and RF methods and eva‎luated by dr and R2 performance criteria as well as RMSE, NRMSE, GSD, CRM, MBE, MAE and RLE error criteria on a daily and monthly scale. Hence, the optimal values of the function parameters were calculated based on the number of complete series in the PMM method, which was equal to 5 (m=5) and the 50 time repetitions (maxit = 50). Also, these were used as the basis for reconstruct with the PMM method. In the RF method, the number of calculation trees 500 (n_est=500) and the number of repetitions 100 (max_iter=100) were chosen as the optimal parameters of the model. Furthermore, based on the performance and error criteria of the models, the RF method showed better results in most of the lost levels, also the reconstructed data were closer to their real values. In the end, restoring process was employed on the main data (long-term missing data) of the rain gauge stations in the desired clusters by PMM and RF methods. While the model eva‎luation results showed that the RF method has a better performance than the PMM method in most of the clusters, when the stations have a severe statistical gap or have many zero data in their statistical series PMM showed better results, because RF method suffers performance degradation and reconstructs data more than its true value, which also seems to be related to the length of the statistical period.
استاد راهنما :
سعيد اسلاميان
استاد مشاور :
ابوالفضل مساعدي
استاد داور :
عليرضا گوهري , رضا مدرس
لينک به اين مدرک :

بازگشت