توصيفگر ها :
مدلهاي گرافيكي گوسي , شبكههاي بيزي , شبكههاي ماركف , دادههاي زماني و مكاني , ميدان تصادفي ماركف
چكيده فارسي :
پيشرفتهاي فنآوري و عصر اطلاعات، امكان جمعآوري مقادير عظيم داده با وضوح بيسابقه را فراهم كرده است. استفاده از اين دادهها براي كسب بينش در مورد پديدههاي پيچيده مستلزم توصيف روابط بين تعداد زيادي از متغيرها است. مدلهاي گرافيكي صريحاً روابط آماري بين متغيرهاي مورد علاقه را در قالب نمودار به دست ميآورند.
تجزيه و تحليل دادههاي اكتشافي اولين گام مهم در تحقيقات علمي است. تحليلهاي اكتشافي اولين درك از روابط بين آيتمها و متغيرهاي موجود در يك مطالعه را ارائه ميدهند و محققان را قادر ميسازند تا قبل از انتخاب تحليلهاي پيچيدهتر، درك بهتري از دادهها پيدا كنند.
كشف روابط پيچيده بين تعداد زيادي از متغيرها با مشاهدات نسبتاً كم يكي از مسائل مهم در هر پژوهشي است. يك رويكرد براي اين مشكل مدلسازي گرافيكي گوسي است.
مدل گرافيكي گوسي به عنوان يك ابزار تحليل اكتشافي جديد مطرح شده است و يك نماي كلي و مفهوم از روابط بين موارد و متغيرهاي موجود در يك مطالعه را فراهم ميكند.
به عبارتي مدلهاي گرافيكي ابزارهاي قدرتمندي براي كشف الگوهاي پيچيده در دادههاي چند متغيره فراهم ميكنند و معمولا در آمار بيزي و يادگيري ماشين استفاده ميشوند. اين وابستگيها و استقلالهاي شرطي از طريق تخمين معكوس ماتريس واريانس– كوواريانس مشخص ميشود.
زماني كه نسبت متغيرها (p) به مشاهدات (n) به يك نزديك ميشود، برآورد ماكزيمم درستنمايي ماتريس واريانس- كوواريانس ناپايدار ميشود و نياز به برآورد انقباضي دارد كه اين كار با شناسايي عناصر غير صفر خارج از قطر اصلي در معكوس ماتريس واريانس- كوواريانس انجام ميشود.
در اين پاياننامه، به بررسي روش انتخاب همسايگي بيزي جهت برآورد مدلهاي گرافيكي گوسي ميپردازيم. همچنين، به منظور منظمسازي و حذف پارامترهاي مرتبط با ارتباطات بسيار ضعيف، از توزيع پيشين نعل اسبي استفاده ميكنيم و عملكرد اين روشها را با استفاده از شبيهسازي و داده واقعي، مورد بررسي قرار ميدهيم. از روشهاي شبيه سازي مونت كارلوي زنجير ماركفي (MCMC) نظير نمونهبردار گيبز و الگوريتم متروپوليس- هستينگز براي به دست آوردن برآوردهاي بيز پارامترها استفاده ميكنيم.
در اين رابطه، ساختار بيزي را براي يادگيري مدلهاي گرافيكي بدون جهت كلي با متغيرهاي پيوسته و گسسته مورد بررسي قرار ميدهيم.
هنگاميكه چندين گروه از دادهها در دسترس هستند، به جاي تخمين شبكهها به طور مستقل براي هر گروه، از برآورد مشترك شبكهها استفاده ميكنيم كه از اطلاعات مشترك بين گروهها استفاده كرده و منجر به برآورد بهتر براي هر شبكه ميشود.
همچنين در اين پايان نامه به برآورد مشترك مدلهاي گرافيكي گوسي در گروههاي مختلف داده با ساختارهاي پيچيده، شامل دادههاي مكاني، دادههاي زماني و دادهها با ساختار مكاني و زماني ميپردازيم. در اين راستا، از مدلهاي ميدان تصادفي ماركف (MRF) براي تركيب كارآمد ساختارهاي پيچيده داده استفاده ميكنيم.
نمونههايي را شبيه سازي ميكنيم و به كمك نرم افزارهاي متلب و R الگوريتمها را بر دادههاي شبيه سازي و دادههاي واقعي پيادهسازي ميكنيم.
چكيده انگليسي :
Technological advances have made it possible to collect huge amounts of data with high resolution.
Using these data to gain insight into complex phenomena requires describing the relationships between a large numbers of variables.
Graphical models explicitly capture statistical relationships between variables of interest in a graph form. Exploratory data analysis is the first important step in scientific research and build a first understanding of the relationships between items and variables in a study, enabling researchers to better understand the data they find before choosing more complex analyses.
Discovering complex relationships among large numbers of variables with relatively few observations is an important issue in every research. One approach to this problem is Gaussian graphical modeling. The Gaussian graphical model is proposed as a new exploratory analysis tool and provides an overview of relationships between cases and variables in a study. In other words, these models become powerful tools for discovering complex patterns in multivariate data and are commonly used in Bayesian statistics and machine learning algorithms. These models are used to determine conditional relationships between variables. These conditional dependencies and independences are determined through the inverse estimation of the variance-covariance matrix. When the ratio of variables (p) to observations (n) approaches one, the maximum likelihood estimation of the variance-covariance matrix becomes unstable and requires shrinkage estimation, which is done by identifying non-zero elements outside the main diameter of the inverse of the variance-covariance matrix.
In this thesis, we examine the Bayesian neighborhood selection method for estimating Gaussian graphical models. Also, in order to regularize and remove parameters associated with very weak correlations, we use the horseshoe prior distribution and examine the performance of these methods using simulation studies and real data. We apply Markov chain Monte Carlo simulation (MCMC) methods such as the Gibbs sampler and the Metropolis-Hastings algorithm to achieve the Bayes estimates of parameters. In this regard, we investigate the Bayesian structure for learning undirected graphical models with continuous and discrete variables.
When multiple groups of data are available, instead of estimating networks independently for each group, we use joint estimation of networks, which applies common information between groups and leads to a better estimate for each network. Also, in this thesis, we discuss the joint estimation of Gaussian graphical models in different groups of data with complex structures, including spatial data, temporal data, and data with spatial and temporal structure. In this regard, we use Markov random field (MRF) models to efficiently combine complex data structures. We simulate some examples and use MATLAB and R softwares for analyzing simulated and real data sets.