توصيفگر ها :
يادگيري ماشين , گاو شيري , سقط جنين , مرده زايي , جفت ماندگي , شانس وقوع
چكيده فارسي :
اين پژوهش با هدف بررسي عوامل مؤثر بر سه ناهنجاري مهم توليدمثلي سقط جنين، مردهزايي و جفتماندگي در گاوهاي شيري هلشتاين و پيشبيني وقوع هريك با استفاده از يادگيري ماشين انجام شد. در اين مطالعه دادههاي مربوط به 15 گله صنعتي گاو شيري از استان اصفهان طي دورهاي 10 ساله (1390–1400) جمعآوري و پس از بررسي داده ها، 440580 ركورد از 147028 دام براي تحليل باقي ماند. تحليل آماري اوليه با استفاده از رگرسيون لجستيك انجام شد. در مرحله دوم، بهمنظور پيشبيني وقوع ناهنجاريهاي جفتماندگي، مردهزايي و سقط جنين، شش الگوريتم يادگيري ماشين شامل رگرسيون لجستيك، بيز ساده، درخت تصميم، جنگل تصادفي، بردار پشتيبان و XGBoost در محيط R پيادهسازي گرديد و براي آن 16 ويژگي پيشبينيكننده استفاده شد. دادهها پس از پيشپردازش، به نسبت 80 به 20 به مجموعههاي آموزش و آزمون تقسيم شدند. با توجه به نامتوازن بودن دادهها، تكنيك كمنمونهبرداري براي ايجاد تعادل كلاسها اجرا شد و 10 مجموعه آموزشي متوازن توليد شد. تنظيم فراپارامترها با تفكيك داخلي دادههاي آموزش انجام گرفت. مدلهاي نهايي بر اساس دادههاي آزمون ارزيابي شدند. براي سنجش عملكرد مدلها از معيارهاي دقت، AUC، MCC، TPR، FPR و F1-score طي 10 تكرار استفاده شد. مقايسه آماري الگوريتمها با آزمون توكي صورت گرفت. نتايج بخش اول نشان داد عوامل محيطي مانند شاخص THI و همچنين وقوع ناهنجاريهاي مقدم نظير سختزايي و دوقلوزايي نقش معناداري در افزايش بخت وقوع جفتماندگي و مردهزايي داشتند (05/0>P). همچنين فاكتور مديريتي مانند فاصله زايش تا اولين تلقيح شانس وقوع سقط جنين را به طور معناداري افزايش داد (05/0>P). همچنين طول دوره خشكي و نمره وضعيت بدني، از ديگر فاكتورهاي مديريتي، نقش قابل ملاحظهاي بر وقوع ناهنجاريهاي مذكور داشتند(05/0>P). در مطالعه دوم نشان داده شد كه الگوريتم XGBoost (78/0= AUC) و جنگل تصادفي (78/0= AUC) به طور قابل توجهي از ساير الگوريتمها بهتر عمل نمودند؛ در حالي كه XGBoost بالاترين امتياز F1 (41٪) را به دست آورد كه نشان دهنده پتانسيل آن براي پيشبيني قابل اعتماد جفتماندگي است. رگرسيون لجستيك و بيز ساده در پيشبيني ناهنجاريها مقادير AUC مشابهي داشتند كه نشان دهنده احتمال كارآمدي كمتر آنها در اين خصوص است. در تشخيص مردهزايي، الگوريتم جنگل تصادفي عليرغم صحت پايينتر نسبت به بيز ساده (74/0 در مقابل 81/0)، از نرخ مثبت واقعي (25/0= TPR) و AUC-ROC معادل 81/0 بهترين الگوريتم با ويژگيهاي استفاده شده در تشخيص مردهزايي بود. در پيشبيني وقوع سقط جنين، الگورتيمها در معيارهاي بررسي شده عملكرد مشابهي داشتند، اما با در نظر گرفتن سه معيار صحت، نرخ مثبت واقعي و F1-score، الگوريتم درخت تصميم بهترين عملكرد را نشان داد. به طور كلي نتايج حاضر نشان داد با استفاده برخي از عوامل مديريتي و توليد ميتوان ناهنجاريهاي مهم را در گاو شيري پيش بيني نمود. با توجه به هزينههاي هنگفت هر يك از اين ناهنجاريها لزوم تقويت مداخلات پيشگيرانه و استفاده از مدلهاي پيشبيني مبتني بر يادگيري ماشين بيش از پيش ميتوان حائز اهميت باشد تا بتوان با بهبود شرايط مديريتي، از زيانهاي اقتصادي گسترده در صنعت گاو شيري جلوگيري كرد.
چكيده انگليسي :
This study aimed to investigate the factors influencing three major reproductive disorders—abortion, stillbirth, and retained placenta—in dairy cows and to predict their occurrence using machine learning techniques. Data were collected from 15 industrial dairy herds in Isfahan Province over a 10-year period (2011–2021), and after data cleaning, 440,580 records from 147,028 animals were retained for analysis. Initial statistical analysis was conducted using logistic regression in SAS software. In the second phase, six machine learning algorithms—logistic regression, naive Bayes, decision tree, random forest, support vector machine (SVM), and XGBoost—were implemented in the R environment using 16 predictive features. After preprocessing, the dataset was split into training and testing subsets with an 80:20 ratio. Due to data imbalance, the undersampling technique was applied to create class balance, resulting in 10 balanced training sets. Hyperparameters were tuned using internal validation, and model performance was evaluated on the test set. Metrics including accuracy, AUC, MCC, TPR, FPR, and F1-score were used over 10 repetitions. Statistical comparisons among algorithms were conducted using Tukey’s test. The results indicated that environmental factors such as the temperature-humidity index (THI) and previous reproductive anomalies like dystocia and twinning significantly increased the likelihood of retained placenta and stillbirth (P<0.05). Additionally, management-related factors such as the interval from calving to first insemination significantly influenced the likelihood of abortion (P<0.05). Other factors like dry period length and body condition score also showed significant associations with the occurrence of the studied disorders (P<0.05). Among the predictive models, XGBoost (AUC = 0.78) and random forest (AUC = 0.78) outperformed the other algorithms, with XGBoost achieving the highest F1-score (41%), highlighting its strong potential for predicting retained placenta. While logistic regression and naive Bayes produced similar AUC values, their performance was generally inferior. For stillbirth prediction, the random forest algorithm, despite a lower accuracy compared to naive Bayes (0.74 vs. 0.81), yielded the best true positive rate (TPR = 0.25) and AUC (0.81). In predicting abortion, most algorithms performed comparably, but the decision tree algorithm showed the best results in terms of F1-score, accuracy, and TPR. Overall, The present findings demonstrate that the application of certain management and production factors can effectively predict significant abnormalities in dairy cattle, such as abortion, stillbirth, and retained placenta. Given the substantial economic costs associated with these disorders, there is a growing need to strengthen preventive interventions and leverage machine learning-based predictive models. By improving herd management practices, it is possible to mitigate extensive economic losses in the dairy industry and enhance overall reproductive performance.