توصيفگر ها :
سرطان سينه , داده كاوي , درخت تصميم , جنگل تصادفي , ماشين بردار پشتيبان , يادگيري ماشين , دسته بندي
چكيده فارسي :
چكيده
سرطان سينه يكي از شايعترين انواع سرطان در ميان بانوان است كه شناسايي زودهنگام و پيشگيري از آن ميتواند نقش مهمي در كاهش مرگومير و هزينههاي درماني داشته باشد. هدف از پژوهش حاضر، شناسايي عوامل مؤثر در پيشگيري از سرطان سينه با بهرهگيري از الگوريتمهاي دادهكاوي بود. بدين منظور، دادههايي از دو گروه زنان سالم و مبتلا از طريق پرسشنامهاي شامل ويژگيهاي فردي، سبك زندگي و سوابق درماني جمعآوري شد. سپس دادهها با روش شبيهسازي افزايش يافته و به سه مجموعه آموزش (735 نمونه)، اعتبارسنجي (157 نمونه) و آزمون (158 نمونه) تقسيم شدند.
براي تحليل و مدلسازي، از سه الگوريتم يادگيري ماشين شامل درخت تصميم، جنگل تصادفي و ماشين بردار پشتيبان استفاده گرديد. نتايج حاصل از ارزيابي مدلها روي مجموعه آزمون نشان داد كه الگوريتم درخت تصميم با دقت 89.2٪ و امتياز F1 برابر با 0.89 بهترين عملكرد را داشت، در حالي كه جنگل تصادفي با دقت 83.5٪ و F1 برابر 0.83 در رتبه دوم و ماشين بردار پشتيبان با دقت 64.5٪ و F1 برابر 0.55 عملكرد ضعيفتري ارائه داد. ماتريس درهمريختگي و گزارش طبقهبندي نيز تأييدكننده اين اختلاف عملكرد ميان الگوريتمها بود.
تحليل اهميت مشخصهها نشان داد متغيرهايي مانند يائسگي، سن يائسگي، وزن، شيردهي، استرس، مصرف دخانيات و الكل از جمله مهمترين عوامل در پيشبيني ابتلا به سرطان سينه هستند. يافتهها نشان ميدهد كه سبك زندگي سالم، كنترل وزن و اقدامات آموزشي و بهداشتي ميتوانند در راستاي پيشگيري از اين بيماري تأثير بسزايي داشته باشند. در نهايت، مدلهاي دادهكاوي بهويژه الگوريتمهاي قابل تفسير مانند درخت تصميم ميتوانند ابزار مفيدي براي تحليل دادههاي پزشكي و ارائه راهكارهاي پيشگيرانه باشند.
چكيده انگليسي :
Abstract
Breast cancer is one of the most common types of cancer among women, and its early detection and prevention can play a vital role in reducing mortality and treatment costs. The aim of this study was to identify the factors influencing breast cancer prevention using data mining algorithms. To this end, data were collected through a questionnaire from two groups of women: healthy individuals and patients diagnosed with breast cancer. The dataset, which included individual characteristics, lifestyle factors, and medical history, was augmented through simulation and then divided into three subsets: training (735 samples), validation (157 samples), and testing (158 samples).
For analysis and modeling, three machine learning algorithms were applied: Decision Tree, Random Forest, and Support Vector Machine. The evaluation results on the test set revealed that the Decision Tree algorithm achieved the best performance with an accuracy of 89.2% and an F1-score of 0.89, followed by Random Forest with an accuracy of 83.5% and an F1-score of 0.83. In contrast, Support Vector Machine showed weaker performance with an accuracy of 64.5% and an F1-score of 0.55. Confusion matrices and classification reports confirmed these differences.
Feature importance analysis indicated that variables such as menopause status, age at menopause, weight, breastfeeding, stress, smoking, and alcohol consumption were among the most significant predictors of breast cancer. The findings suggest that a healthy lifestyle, weight control, and educational and healthcare interventions can play a crucial role in preventing the disease. Ultimately, data mining models—particularly interpretable algorithms such as Decision Trees—can serve as valuable tools for medical data analysis and the development of preventive strategies.