شماره مدرك :
18951
شماره راهنما :
16443
پديد آورنده :
سلماني احسان
عنوان :

انتخاب متغير و خوشه بندي داده هاي طولي براساس تاريخچه متغير پاسخ

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
اقتصادي-اجتماعي
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
نه،76ص.، مرور، جدول، نمودار،
واژه نامه :
داده هاي طولي، خوشه بندي مدل محور، انتخاب متغير، رويكرد بيز، فرآيند ديريكله
توصيفگر ها :
داده هاي طولي , ، خوشه بندي مدل محور , انتخاب متغير , رويكرد بيز , فرآيند ديريكله
تاريخ ورود اطلاعات :
1402/07/30
كتابنامه :
كتابنامه
رشته تحصيلي :
آمار
دانشكده :
رياضي
تاريخ ويرايش اطلاعات :
1402/08/08
كد ايرانداك :
2977234
چكيده فارسي :
امروزه با توجه به گسترش تكنولوژي، امكان ثبت حجم عظيمي از داده ها و همچنين جمع آوري آنها براي تعداد زيادي از متغيرها براي افراد يا واحدهاي آزمايشي مختلف وجود دارد. زماني كه متغيرها براي واحدهاي آزمايشي گوناگون در طي زمان ثبت و جمع آوري شود، داده هاي حاصل داده هاي طولي ناميده مي شوند. در سال هاي اخير تجزيه و تحليل داده هاي طولي در زمينه هاي مختلفي از جمله روانشناسي باليني براي رديابي فرآيندهاي ذهني بيمار در طول زمان، تحقيقات بازار براي مشاهده روند و الگوي خريد مصرف كننده، نظرسنجي سياسي، براي بررسي سنجش تغيير افكار عمومي، جامعه شناسي براي نظارت بر رويدادهاي زندگي و تغييرات اجتماعي، علوم اقتصادي و اپيدميولوژي استفاده شده است. هدف اصلي از تجزيه و تحليل داده هاي طولي در نظر گرفتن همبستگي بين مشاهدات و دستيابي به تخمين هاي كارآمدتر براي پارامتر هاي مدل و در نتيجه پي شبيني هاي دقيق تر است. در اصل، همبستگي بين داده هاي طولي در درجه اول به دو عامل نسبت داده مي شود: همبستگي درون گروهي و همبستگي پياپي. يكي از روش هاي اصلي براي تجزيه و تحليل داده هاي طولي، استفاده از خوشه بندي است. در خوشه بندي، واحد هاي آزمايشي به گروه هاي متمايز و معني دار گروه بندي مي شوند و واحد هاي داراي بيشترين شباهت در يك خوشه قرار مي گيرند. با توجه به ساختارهاي وابستگي مختلف در داده هاي طولي و در دسترس بودن معيارهاي شباهت متنوع، خوشه بندي مبتني بر مدل به عنوان يكي از انعطاف پذيرترين و كاربردي ترين تكنيك ها استفاده مي شود. اين رويكرد با در نظر گرفتن آميخته اي از توزيع ها براي كشف و شناسايي وابستگي هاي متقابل بين افراد يا مشاهدات در نظر گرفته شده و در اين پايان نامه مورد توجه قرار مي گيرد. علاوه بر اين، در اين پايان نامه رويكرد جديدي براي خوشه بندي و مدل سازي داده هاي طولي بررسي مي شود. در اين روش، خوشه بندي بر اساس تاثير ضريب متغير پاسخ تاخيري صورت مي گيرد. در واقع، با در نظر گرفتن يك ضريب تصادفي براي متغير پاسخ تاخيري و استفاده از فرآيند ديريكله به عنوان پيشين براي توزيع اين اثرات تصادفي، افراد را بر اساس رفتار از نظر وابستگي به نتايج قبلي شان خوشه بندي مي كنيم. تخمين پارامترها در چارچوب بيزي با استفاده از روش هاي ) بدست مي آيد. در واقع، اين رويكرد از خوشه بندي براي MCMC شبيه سازي زنجيره ماركوف مونت كارلو ( شناسايي و بررسي افراد با رفتارهاي متمايز در رابطه با وابستگي آنها به تاريخچه پاسخ، تجزيه و تحليل داده ها و ايجاد مدل هاي بسيار دقيق و پي شبيني كننده استفاده مي كند. در اين راستا، هر دو اثر ثابت و تصادفي براي بررسي و كنترل منابع تغييرپذيري در داده هاي طولي، با ماهيت گسسته فرآيند ديريكله براي خوشه بندي افراد بر اساس ضرايب متغير پاسخ تاخيري، استفاده مي شوند. همچنين، در اين پايان نامه از رويكرد انتخاب متغير در تحليل داده هاي طولي استفاده شده است. اين فرآيند شامل شناسايي عوامل يا ويژگي هاي مهمي است كه امكان تمايز خوشه ها را با روندهاي متفاوت فراهم مي كند. متغيرهاي انتخاب شده در مجموع بيشترين تأثير را بر متغير پاسخ دارند. انتخاب متغير مي تواند دقت و كارايي برآورد پارامترها و نتايج خوشه بندي را بهبود بخشد و همچنين پيچيدگي و بعد داده ها را كاهش دهد. با اين حال، انتخاب متغير براي خوشه بندي داده هاي طولي به دليل همبستگي هاي درون گروهي، نقاط پرت در داده ها و در نظر گرفتن اندازه هاي مختلف براي خوشه، چالش برانگيز است. در ادامه، مطالعات شبيه سازي براي بررسي رويكردهاي پيشنهادي در اين پايان نامه انجام شده است.
چكيده انگليسي :
Today, thanks to technological advancements, it is now possible to record and collect vast amounts of data encompassing a wide array of variables for various individuals. When these variables are recorded and collected over time for different individuals, the resulting dataset is referred to as longitudinal data. In recent years, the analysis of longitudinal data has found application in diverse fields, including clinical psychology, where it aids in tracking a patient’s mental processes over time, market research for observing consumer purchase trends, political polling to gauge public opinion shifts, sociology to monitor life events and societal changes, and economics and epidemiology. The primary objective of longitudinal data analysis is to consider correlations among observations and achieve more efficient estimates for model parameters and consequently more precise predictions. In essence, the correlations among longitudinal data are primarily attributable to two factors: intraclass correlation and serial correlation. One of the pivotal methodologies for longitudinal data analysis is the utilization of clustering. In clustering, individuals are grouped into distinct and meaningful clusters based on their similarities, with individuals exhibiting the highest degree of similarity being placed within the same cluster. Given the various dependence structures within longitudinal data and the availability of diverse similarity measures, model-based clustering emerges as one of the most flexible and practical techniques. It involves considering a mixture of distributions to explore and identify interdependencies among individuals or observations, a topic considered in this thesis. Moreover, this thesis explores a novel approach to clustering and modeling longitudinal data. This method focuses on the influence of the lag response variable on the response variable, accomplished through the utilization of the semi-parametric approach of the Dirichlet process. Indeed, by considering a random coefficient for the lag response variable and applying the Dirichlet process as a prior for the distribution of these random effects, we cluster individuals based on their behavior in terms of their dependency on their previous outcomes. Parameter estimates are obtained within a Bayesian framework using Markov chain Monte Carlo (MCMC) simulation methods. Indeed, this approach leverages clustering to identify and examine individuals with distinct behaviors concerning their dependency on the response’s history, analyze the data, and establish highly accurate and predictive models. Both fixed and random effects are employed to investigate and manage the sources of variability within longitudinal data, with the discrete nature of the Dirichlet process utilized for clustering individuals based on the coefficients of the lag response variable. Furthermore, in this thesis, the variable selection approach in longitudinal data analysis is applied. This process involves identifying important predictors or characteristics that enable the differentiation of groups with varying trends. The selected variables collectively have the most significant impact on the response variable. Variable selection can enhance the accuracy and efficiency of parameter estimation and clustering outcomes, as well as help control and reduce the complexity and dimensionality of the data. However, variable selection for clustering longitudinal data is a challenging endeavor due to intra-class correlations, outliers in the data, and the consideration of different cluster sizes. Simulation studies are conducted to investigate the proposed approaches in this thesis.
استاد راهنما :
ريحانه ريخته گران , زهرا صابري
استاد مشاور :
حامد لروند
استاد داور :
ساره گلي فروشاني , مريم كلكين نما
لينک به اين مدرک :

بازگشت