توصيفگر ها :
پارامتر كنترل , تجزيهي چولسكي تعديليافته , دادههاي طولي , رگرسيون استوار , ساختار كوواريانس , مدل خطي با اثرات آميخته , مشاهدات دورافتاده
چكيده فارسي :
تحليل دادههاي همبسته شامل طولي، پنلي و اندازهگيريهاي مكرر با استفاده از مدلهاي رگرسيوني استوار همواره مورد توجه بوده است. يكي از راهكارهاي مهم در اين زمينه استفاده از برآوردگرهاي استوار است كه با مينيمم كردن تابعي از خطاهاي مدل، تحت عنوان تابع هدف، حاصل ميشود. اين توابع با تخصيص وزن كمتر به مشاهدات دورافتاده باعث ايجاد مقاومت در برآوردگرهاي حاصل ميگردند. ميزان مقاومت برآوردگرهاي حاصل، توسط پارامتر كنترل تعيين ميشود. در اغلب مطالعات قبلي، مقدار اين پارامتر ثابت در نظر گرفته شده است. اين در حالي است كه مقدار اين پارامتر با توجه به نقش اثرگذار آن در نتايج، ميتواند تأثير بسزايي در كارآمدي روشهاي استوار داشته باشد. همچنين، اغلب توابع هدف مطالعه شده، متقارن بوده و لذا، امكان برازش دادهها با ساختار نامتقارن را نداشتهاند. از اين رو، در اين رساله به معرفي مدلهاي رگرسيوني استوار براي تحليل دادههاي همبسته، با استفاده از توزيع هوبر چندمتغيره جديد ميپردازيم. ويژگي حائز اهميت اين مدلها، امكان برآورد همهي پارامترها از جمله پارامتر كنترل بر اساس تابع درستنمايي است. در اين راستا، ابتدا با استفاده از روش تجزيهي چولسكي ماتريس مقياس، توزيع هوبر چندمتغيره را معرفي ميكنيم. سپس، با پيروي از توزيعهاي چوله بيضوي، تعميمي از چولهي توزيع هوبر چندمتغيره را ارائه داده و ويژگيهاي مهم آن را بررسي ميكنيم. پس از آن، دو مدل رگرسيوني را براي برازش دادههاي همبسته معرفي ميكنيم. مدل اول يك مدل رگرسيوني حاشيهاي براي تحليل دادههاي طولي است كه از طريق ساختارهاي مختلف كه براي ماتريس كوواريانس در نظر گرفته ميشود، تغييرپذيري بين مشاهدات را بهصورت مستقيم مدل ميكند. ما با اين فرض كه خطاي اندازهگيري براي هر فرد از توزيع هوبر چندمتغيره پيروي ميكند، پارامترهاي مدل، از جمله پارامترهاي كنترل و مقياس را با استفاده از تابع درستنمايي حاشيهاي برآورد ميكنيم. اين مدل به لحاظ داشتن پارامترهاي كنترل متفاوت براي افراد مختلف، امكان شناسايي افراد دورافتاده را فراهم ميآورد. مدل دوم، تعميمي از مدل رگرسيون خطي با اثرات آميخته است كه در آن اثرات تصادفي و مؤلفههاي خطا هر دو داراي توزيع هوبر-چولهي چندمتغيره هستند و لذا، در آن امكان تخصيص وزن كمتر به مشاهدات دورافتادهي درون و بين فردي با استفاده از پارامترهاي كنترل و همچنين امكان برازش دادهها با ساختار نامتقارن وجود دارد. از جمله ويژگيهاي مهم مدلهاي معرفي شده اين است كه امكان برآورد همهي پارامترهاي مدل بر اساس تابع درستنمايي، با استفاده از الگوريتمهاي محاسباتي قابل دسترس در نرمافزارهاي آماري وجود دارد. همچنين، با استفاده از روش تجزيهي چولسكي تعديليافته، پارامترگذاري جديد براي پارامترهاي ماتريس مقياس در نظر گرفته ميشود كه موجب تسهيل در برآورد ميگردد. علاوه بر اين، امكان محاسبهي ماندههاي چولسكي و همچنين معيارهاي مختلف مربوط به مقايسهي مدلها و امكان تخصيص وزن كمتر به مشاهدات دورافتاده فراهم ميشود. ما با استفاده از مطالعات شبيهسازي و تحليل سه مجموعه از دادههاي واقعي در زمينههاي اقتصاد و پزشكي، به مقايسهي مدلهاي معرفي شده با ديگر مدلهاي مرسوم از جمله نرمال، نرمال-چوله و تي-چوله پرداخته و نشان ميدهيم كه مدل ارائه شده جديد ميتواند در مقايسه با مدلهاي رقيب، عملكرد خوبي در پوشش دادههاي دورافتاده داشته باشد.
چكيده انگليسي :
Extensions on robust regression modeling of correlated data, including repeated measures, longitudinal, and panel data, have been demanding in most studies. In particular, robustifying model fitting is attractive in the presence of potential outlying points. A popular approach in this field is to use robust estimates obtained by minimizing a function of errors, known as the objective function, that make a robust inference by bounding or down weighting the influence of outliers through a tuning parameter. This parameter that determines the degree of robustness has an essential role in the robust analysis. In previous studies, the tuning parameter was assumed to be a constant value, especially near 2, to provide a balance between robustness and efficiency. In addition, most of the objective functions are not helpful for asymmetric situations. These concerns motivated us to introduce robust models to analyze correlated data based on constructing an innovative multivariate Huber distribution and skew extension. Our modelsʹ interesting feature is presenting a procedure to estimate the tuning parameter and other unknown parameters using the likelihood function. This feature of robust modeling for correlated data has not been addressed so far in previous studies. To clarify it, at first, we introduce the multivariate Huber distribution by using the Cholesky factor of the dispersion matrix. It is helpful to derive the related multivariate density function and other properties of the proposed model. Then, we construct the skew multivariate form by following extending familiar methods to create skew-elliptical distributions. Thus, we present two robust models. The first model is a marginal regression model, to analyze longitudinal data, can directly reflect the variation by specifying the covariance structure of the residual terms. We let the residual term of each subject follows the multivariate Huber distribution and allow subject-varying the tuning parameter. Thus, the analyst can control the influence of each subject with large or small observations.
The second model is a linear mixed-effects model that allows the tuning vector to be subject-specific or time-varying in the model specification. For both models, we use an unconstrained parameterization through the modified Cholesky decomposition. The process presents a convenient technique to estimate elements of the covariance matrix in a practical setting. Some benefits of using the proposed robust models include (i) identifying outlying points that are inconsistent with the normal and robustifying model under outliers, (ii) assigning appropriate weights to data points that deviate from the normal, (iii) providing joint estimating the tuning parameter with variance-covariance components and fixed effects using an easy algorithm, (iv) facilitating the computational process to implement them in freely available software packages, (v) allowing for computing the model selection measures and other quantities of interest, and (vi) capturing main features of observed data in comparison with some competing models, such as the multivariate skew-normal and skew-t, and accordingly leading to convincing conclusions in empirical studies. Moreover, we conducted some simulation studies to highlight the advantage of our proposed robust regression models. To illustrate the usefulness of our models, we re-analyze three empirical applications on health and economic studies. Findings show that the proposed modeling methodology can provide a more stable and robust data analysis.