عنوان مقاله فارسی: یک رویکرد نیمه نظارتی برای تشخیص و توصیف دادههای پرت در داده های دسته بندی شده
عنوان مقاله لاتین: A Semisupervised Approach to the Detection and Characterization of Outliers in Categorical Data
نویسندگان: Dino Ienco; Ruggero G. Pensa; Rosa Meo
تعداد صفحات: 12
سال انتشار: 2017
زبان: لاتین
Abstract:
In this paper, we introduce a new approach of semisupervised anomaly detection that deals with categorical data. Given a training set of instances (all belonging to the normal class), we analyze the relationship among features for the extraction of a discriminative characterization of the anomalous instances. Our key idea is to build a model that characterizes the features of the normal instances and then use a set of distance-based techniques for the discrimination between the normal and the anomalous instances. We compare our approach with the state-of-the-art methods for semisupervised anomaly detection. We empirically show that a specifically designed technique for the management of the categorical data outperforms the general-purpose approaches. We also show that, in contrast with other approaches that are opaque because their decision cannot be easily understood, our proposed approach produces a discriminative model that can be easily interpreted and used for the exploration of the data.
در این مقاله، ما یک رویکرد جدید از تشخیص ناهنجاری با دقت کم را معرفی میکنیم که با دادههای قطعی سر و کار دارد. با توجه به مجموعه آموزشی نمونهها (که همگی متعلق به کلاس نرمال هستند)، ما رابطه بین ویژگیها را برای استخراج یک توصیف متمایز از نمونههای غیرعادی تحلیل میکنیم. ایده کلیدی ما ایجاد مدلی است که ویژگیهای نمونههای عادی را مشخص میکند و سپس از مجموعهای از تکنیکهای مبتنی بر فاصله برای تمایز بین نمونههای عادی و غیر عادی استفاده میکند. ما روش خود را با روشهای سطح بالا برای تشخیص ناهنجاری با دقت کم مقایسه میکنیم. ما به طور تجربی نشان میدهیم که یک تکنیک طراحیشده خاص برای مدیریت دادههای طبقهبندی بهتر از رویکردهای هدف کلی است. ما همچنین نشان میدهیم که در مقایسه با رویکردهای دیگر که مبهم هستند چون تصمیمگیری آنها به راحتی قابلدرک نیست، رویکرد پیشنهادی ما یک مدل متمایز تولید میکند که میتواند به راحتی برای اکتشاف دادهها تفسیر و استفاده شود.
a semisupervised approach to the detection and characterization of outliers in categorical data_1619879127_48090_4145_1681.zip1.65 MB |