توصيفگر ها :
بازسازي دادهها , جنگل تصادفي , تطبيق ميانگين پيشبينيكننده , بارندگي روزانه , يادگيري ماشين
چكيده فارسي :
چكيده
بارش از عوامل اصلي هوا و اقليمشناسي ميباشد. برآورد دقيق دادههاي بارش روزانه ازدسترفته كاري دشوار است. در اختيار داشتن دوره آماري طولانيمدت و كامل از نظر علم آمار اولين نياز تحليلهاي قابلاعتماد در آبوهواشناسي است. تحليل سري دادههاي ناقص، اريب هستند. بنابراين نياز به برآورد دادههاي گمشده است. طيف گستردهاي از روشها براي تكميل مقادير مفقوده وجود دارد، اما درصد خلأهاي آماري يكي از عوامل اصلي محدودكننده كاربرد آنها است. منطقه موردمطالعه دشت مشهد-چناران، با مساحت 9909 كيلومترمربع، بخشي از غرب حوضه آبريز قرهقوم واقع در شمال شرقي ايران مي¬باشد. بهطوركلي از 34 ايستگاه بارانسنجي موجود در دشت مشهد-چناران، تعداد 30 ايستگاه بارانسنجي پس از انجام آزمون كفايت داده مورداستفاده قرار گرفت. هدف اين پژوهش بازسازي و تكميل دادههاي مفقوده اين ايستگاهها بادقت بالا و ارائه سري آماري تكميلشده (حداقل 30 سال) ميباشد. در مطالعه حاضر دو روش براي بازسازي و تكميل مقادير دادههاي بارش ازدسترفته استفاده ميشود؛ محاسبات چندگانه توسط معادلات زنجيرهاي از طريق تطبيق ميانگين پيشبينيكننده (PMM) و الگوريتم يادگيري ماشين جنگل تصادفي (RF)موجود در نرمافزار برنامهنويسي R. براي افزايش دقت، كاهش خطا و بهبود تفسير دادهها در فرايند بازسازي با روشهاي مذكور، بر روي ايستگاههاي حاضر در اين طرح، تحليل خوشهاي توسط روش سلسلهمراتبي Ward صورتگرفت؛ الگوريتم Ward.D2 بر اساس معيار ضريب همبستگي كوفنتيك (0.73) بهعنوان بهترين الگوريتم در ميان الگوريتمهاي موجود در اين روش انتخابشد. تعداد خوشههاي بهدستآمده در اين روش، در بهينهترين حالت، بر اساس معيار ميانگين عرض سيلهوت (0.26)، تعداد 8 خوشه انتخاب شد و 30 ايستگاه بارانسنجي حاضر در اين پژوهش براساس ميانگين و انحرافمعيار عمق بارندگي فصلي، موقعيت جغرافيايي (طول و عرض جغرافيايي) و ارتفاع از سطح دريا در اين 8 خوشه دستهبندي شدند. طول دوره آماري در هر خوشه براساس سال پايه مشترك ايستگاههاي آن خوشه، تعيين گرديد. در ادامهيك سري كامل از دادههاي روزانه در بازه زماني محدودتر (از سال 1395 تا 1397) به صورت مصنوعي و كاملا تصادفي در 6 سطح (5%، 10%، 15%، 20%، 30% و 40%) توسط نرمافزار Rمفقود گرديد تا ارزيابي دقيقتري از مدلهاي موردنظر در حين بازسازي و اعتبارسنجي مدل و مقايسه مدلها با يكديگر صورتگيرد، براي اين كار از 8 ايستگاه بارانسنجي كه در بازهزماني ذكر شده داراي سري كاملي از دادهاي بارش روزانه بودند، استفاده گرديد. سپس سري ناقص شده، توسط دو روش PMM و RF تمكيل شده و توسط معيارهاي عملكرد dr و R2 و همچنين معيارهاي خطاسنجي RMSE, NRMSE, GSD, CRM, MBE, MAE و RLE در مقياس روزانه و ماهانه مورد ارزيابي قرارگرفتند. بر اين اساس تعداد سريهاي كامل در روش PMM، 5 (m=5) و تعداد تكرار 50 (maxit=50) به عنوان مقادير بهينه پارامترهاي تابع اين مدل انتخاب شده و مبناي بازسازي با روش PMM قرارگرفتند. در روش RF نيز تعداد درختان محاسبه 500 (n_est=500) و تعداد تكرار 100 (max_iter=100) به عنوان پارامترهاي بهينه مدل انتخاب شدند. همچنين براساس معيارهاي عملكرد و خطاي مدلها، روش RF در اكثر سطوح مفقودي عملكرد بهتري را از خود نشانداد و دادههاي بازسازيشده به مقادير واقعي خود نزديكتر بودند. در انتها عمليات بازسازي برروي دادههاي اصلي (دادههاي مفقوده طولاني مدت) ايستگاههاي بارانسنجي در خوشههاي موردنظر توسط دو روش PMM و RF صورت پذيرفت، نتايج ارزيابي مدل نشانداد كه روش RF در اكثر خوشهها از عملكرد بهتري نسبت به روش PMM برخورداراست و تنها در مواردي كه ايستگاهها داراي خلا آماري شديدي بوده و يا داده صفر زيادي در سري آماري خود دارند، دچار افت عملكرد ميشوند و دادهها را بيشاز مقدار واقعي خود بازسازي ميكند، به نظر ميرسد به طول دوره آماري نيز مربوط ميباشد.
چكيده انگليسي :
Abstract
Precipitation is one of the most important part of weather and climatology. prepare an accurate estimation of daily precipitation data is difficult. First requirement of analyzing in meteorology is preparing the statistical data for a long-term. The analysis of incomplete data series is biased. There is a serious need for the estimation of the lost data. Although there are broad ranges of methods to complete the lost data, percentage of statistical gaps is known as one of the most important limitation of their utilization. Under-studied area of Mashhad-Chennaran plain, with area of 9909 square kilometers, which is part of the western part of the Qaraqom drainage basin located in the northeast of Iran. After the data adequacy test, 30 rain gauge stations out of 34 rain gauge stations in Mashhad-Chennaran plain were used in this research. The aim of this thesis is reconstruct the lost data of rain gauge stations with high accuracy to present a completed statistical series (at least 30 years). The present study compares two methods for restoring and completing lost rainfall data values, which are included: Multiple calculations by chain equations through matching predictive mean (PMM) and random forest (RF) machine learning algorithm available in R programming software. In order to increase accuracy, reduce errors and improve the data interpretation with the mentioned methods a cluster analysis was employed on the stations in this project by Ward's hierarchical method. This algorithm was selected as the best algorithm among the existing algorithms in this method based on the Cofentic correlation coefficient criterion (0.73). The 8 clusters were selected by the optimal case and the average width of the silhouette (0.26). Moreover, the 30 rain gauge stations were selected based on the average and standard deviation of seasonal rainfall depth, geographic location (longitude and latitude) and Altitude above sea level were categorized into the mentioned clusters. The duration of the statistical period in each cluster was determined based on the common base year of the stations in that cluster. In the next step, a complete series of daily data with more time limitation frame (from 2015 to 2017) at 6 levels (5%, 10%, 15%, 20%, 30% and 40%) were lost by R software, artificially and completely randomly, to assess the models more accurate during the reconstruct and validation process, and to compare the models of the 8 rain gauge stations that had a complete series of daily rainfall data were used in the mentioned period. Then the incomplete series was ccompleted by PMM and RF methods and evaluated by dr and R2 performance criteria as well as RMSE, NRMSE, GSD, CRM, MBE, MAE and RLE error criteria on a daily and monthly scale. Hence, the optimal values of the function parameters were calculated based on the number of complete series in the PMM method, which was equal to 5 (m=5) and the 50 time repetitions (maxit = 50). Also, these were used as the basis for reconstruct with the PMM method. In the RF method, the number of calculation trees 500 (n_est=500) and the number of repetitions 100 (max_iter=100) were chosen as the optimal parameters of the model. Furthermore, based on the performance and error criteria of the models, the RF method showed better results in most of the lost levels, also the reconstructed data were closer to their real values. In the end, restoring process was employed on the main data (long-term missing data) of the rain gauge stations in the desired clusters by PMM and RF methods. While the model evaluation results showed that the RF method has a better performance than the PMM method in most of the clusters, when the stations have a severe statistical gap or have many zero data in their statistical series PMM showed better results, because RF method suffers performance degradation and reconstructs data more than its true value, which also seems to be related to the length of the statistical period.