توصيفگر ها :
تشخيص ناهنجاري , گراف پويا , پردازش جريان , حافظه ثابت , انتخاب آستانه تطبيقي , تحليل چگالي , امنيت شبكه
چكيده فارسي :
تشخيص ناهنجاري در يال هاي گراف هاي پويا به دليل افزايش بي سابقه ي حجم و پيچيدگي داده ها در كاربردهايي همچون كشف تقلب، پايش
شبكه هاي اجتماعي و امنيت سايبري، به يكي از چالش هاي محوري در علم داده و يادگيري ماشين تبديل شده است. نياز به پردازش بلادرنگ
و محدوديت هاي حافظه اي، همراه با فقدان برچسب هاي دقيق در بسياري از مجموعه هاي واقعي، امكان استفاده ي مستقيم از الگوريتم هاي
سنگين و نظارت شده را با مشكل مواجه مي سازد. در اين پژوهش، چارچوبي سبك وزن، توزيع پذير و ماژولار براي حل اين مسئله ارائه شده
استكه شامل سه بخش اصلي است: ( 1) توزيع و پنجره بندي داده ها به منظور كاهش مصرف حافظه و تسهيل پردازش موازي، ( 2) امتيازدهي
و ( 3) ماژول آستانه گذاري خودكار با مجموعه اي از روش هاي آماري و يك روش ،AnoEdge-G ناهنجاري با استفاده از الگوريتم
ابتكاري مبتني بر ضريبي از مقادير بيشينه در هر پنجره ي زماني. استفاده از پنجره بندي ايستا، علاوه بر آنكه پردازش ها را به صورت معناداري
كاهش مي دهد، امكان تعميم اين ساختار به داده هاي آينده و حفظ كارايي در جريان هاي بلادرنگ را نيز فراهم مي كند. تمامي مراحل اين
چارچوب به صورت قطعي و بازتوليدپذير طراحي شده و قابليت اجراي موازي كامل را دارا است. آزمايش هاي اوليه بر تأثير موازي سازي
بر زمان اجرا و افت دقت نشان داد كه با تقسيم بندي مناسب داده ها مي توان سرعت پردازش را به طور چشمگيري افزايش داد و تنها كاهش
اندكي در دقت مشاهده كرد؛ اين امر چارچوب را براي كاربردهاي بلادرنگ و مقياس پذير مناسب مي سازد. در مرحله ي تعيين آستانه، روش
ابتكاري ما عملكردي حداقل به اندازه ي روش هاي مطرح موجود ارائه داد و با وجود سادگي پياده سازي، از نظر دقت در شناسايي ناهنجاري ها
قابل مقايسه با بهترين روش ها عمل كرد. در يكي از مجموعه هاي داده هاي آزمايشي، دقت تشخيص ناهنجاري به حدود 99 درصد رسيد
كه نشان دهنده ي بهبود قابل توجه چارچوب پيشنهادي است. اين نتايج نشان مي دهد رويكرد ما مي تواند گامي مؤثر در جهت عملي سازي
تشخيص ناهنجاري در گراف هاي پويا با منابع محدود و نياز به پردازش زمان واقعي باشد.
چكيده انگليسي :
Anomaly detection in the edges of dynamic graphs has become one of the central challenges in data science
and machine learning due to the unprecedented growth in data volume and complexity in applications such as
fraud detection, social network monitoring, and cybersecurity. The need for real-time processing and memory
constraints, combined with the lack of precise labels in many real-world datasets, makes the direct use of heavyweight,
supervised algorithms problematic. In this study, we propose a lightweight, distributed, and modular
framework to address this issue, consisting of three main components: (1) data distribution and windowing
to reduce memory footprint and facilitate parallel processing; (2) anomaly scoring using the AnoEdge-G
algorithm; and (3) an automated thresholding module incorporating a set of statistical methods alongside an
innovative approach based on a multiple of the maximum scores within each time window. Employing static
windowing not only significantly reduces the processing load but also enables this scheme to generalize to future
data streams while maintaining efficiency in real-time scenarios. All stages of the framework are designed to be
deterministic, reproducible, and fully parallelizable Initial experiments assessing the impact of parallelization
on execution time and accuracy degradation demonstrated that, with appropriate data partitioning, processing
speed can be dramatically increased with only a minor drop in accuracy—making the framework highly suitable
for scalable, real-time applications. During threshold determination, our novel method performed at least
as well as established techniques and, despite its simplicity, achieved comparable accuracy in anomaly identification.
In one of the benchmark datasets, anomaly detection accuracy reached approximately 99%, indicating
a significant improvement offered by the proposed framework. These results demonstrate that our approach
represents an effective step toward operationalizing anomaly detection in dynamic graphs under resource constraints
and real-time processing requirements.