您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 56-59.

• 论文 • 上一篇    下一篇

采样特异性因子及异常检测

孙静宇,余雪丽,陈俊杰, 李鲜花   

  1. 太原理工大学计算机科学与技术学院, 山西 太原 030024
  • 收稿日期:2010-05-20 出版日期:2010-10-16 发布日期:2010-05-20
  • 作者简介:孙静宇(1975-),男,博士生,讲师,主要研究方向为Web Search、案例推理、个性化推荐技术、数据挖掘. E-mail:whitesunpersun@163.com
  • 基金资助:

    山西省自然科学基金资助项目(200821024)

Sampled peculiarity factor and its application in anomaly detection

SUN Jing-yu, YU Xue-li, CHEN Jun-jie, LI Xian-hua   

  1. College of Computer Science and Technology, Taiyuan University of Technology, Taiyuan 030024, China
  • Received:2010-05-20 Online:2010-10-16 Published:2010-05-20

摘要:

特异性因子是数据的重要特征之一,常通过累计数据之间的差异得到,是面向特异性挖掘的核心概念,然而遇到了计算时间复杂度过高的问题。本文在分析已有特异性因子定义特点及其计算算法时间复杂度的基础上,指出应该基于采样的方法定义特异性因子。给出了一种基于采样的特异性因子定义,即采样特异性因子(sampled peculiarity factor,SPF),并提出了一种基于SPF的异常检测算法。在真实数据集上进行对比实验,结果表明:该算法在检测异常数据时,精度降低不明显,而运行效率得以较大提高,这说明基于采样定义特异性因子的方法可行和更为合理。本文还指出采用合适的采样方法可经进一步优化SPF的计算过程,进而节约占用CPU时间和满足实时性要求高的应用。

关键词: 采样, 特异性因子, 异常检测, 数据挖掘, 时间复杂度, 实时性

Abstract:

The peculiarity factor (PF), an important feature of data and obtained by accumulating differences between data, is a core concept of peculiarity-oriented mining (POM). But it meets a higher computational time complexity for any algorithm.A sampled approach firstly was suggested to define PF through analyzing current versions of PF and computational complexities of algorithms to compute it. A sampled PF (SPF) was proposed to meet realtime requirement and a SPFoutlier detection algorithm was given. Experiments using real datasets show that the SPF-outlier detection algorithm is efficient with losing a few of precisions through contrasting with two baseline algorithms and it is a feasible and right approach to define PF by sampling. Furthermore, some right sampling methods could be used to compute SPFs in order to meet real-time requirement.

Key words: sampling, peculiarity factor, outlier detection, data mining, time complexity, real-time

[1] 郑晓,陈鹤,周东傲,宫永顺. 基于视频描述增强和双流特征融合的视频异常检测方法[J]. 山东大学学报 (工学版), 2025, 55(5): 110-119.
[2] 周彦冰,马士伦,文益民. 基于图结构的概念漂移检测[J]. 山东大学学报 (工学版), 2025, 55(2): 88-96.
[3] 王梅,宋凯文,刘勇,王志宝,万达. DMKK-means——一种深度多核K-means聚类算法[J]. 山东大学学报 (工学版), 2024, 54(6): 1-7.
[4] 李岩,张子毅,王建柱. 基于特征点提取的RANSAC-ICP三维点云配准方法[J]. 山东大学学报 (工学版), 2024, 54(5): 144-154.
[5] 白琳,俱通,王浩,雷明珠,潘晓英. 面向不平衡数据的提升均衡集成学习算法[J]. 山东大学学报 (工学版), 2024, 54(4): 59-66.
[6] 张喜龙,韩萌,陈志强,武红鑫,李慕航. 动态集成选择的不平衡漂移数据流Boosting分类算法[J]. 山东大学学报 (工学版), 2023, 53(4): 83-92.
[7] 侯月武,刘兆英,张婷,李玉鑑,孙长明. 基于改进的DUNet遥感图像道路提取[J]. 山东大学学报 (工学版), 2022, 52(4): 29-37.
[8] 聂秀山,马玉玲,乔慧妍,郭杰,崔超然,于志云,刘兴波,尹义龙. 任务粒度视角下的学生成绩预测研究综述[J]. 山东大学学报 (工学版), 2022, 52(2): 1-14.
[9] 龚楷伦,翟婷婷,唐鸿成. 一种面向多标签分类的在线主动学习算法[J]. 山东大学学报 (工学版), 2022, 52(2): 80-88.
[10] 张妮,韩萌,王乐,李小娟,程浩东. 基于索引列表的增量高效用模式挖掘算法[J]. 山东大学学报 (工学版), 2022, 52(2): 107-117.
[11] 朱安, 徐初. 一种使用并行交错采样进行超分辨的方法[J]. 山东大学学报 (工学版), 2020, 50(2): 10-16.
[12] 杨思, 李思童, 张进东, 白羽. 高速光通信激光器带宽模型改进与并行计算优化[J]. 山东大学学报 (工学版), 2019, 49(1): 17-22.
[13] 朱映雪,黄瑞章,马灿. 一种具有新主题偏向性的短文本动态聚类方法[J]. 山东大学学报 (工学版), 2018, 48(6): 8-18.
[14] 赵亚楠,王新锋,李锐,陈天舒,薛丽坤,王文兴. 大气采样干燥技术除湿效果的测试与对比[J]. 山东大学学报(工学版), 2018, 48(4): 128-136.
[15] 姚宇,冯健,张化光,韩克镇. 一种基于椭球体支持向量描述的异常检测方法[J]. 山东大学学报(工学版), 2017, 47(5): 195-202.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 王素玉,艾兴,赵军,李作丽,刘增文 . 高速立铣3Cr2Mo模具钢切削力建模及预测[J]. 山东大学学报(工学版), 2006, 36(1): 1 -5 .
[2] 张永花,王安玲,刘福平 . 低频非均匀电磁波在导电界面的反射相角[J]. 山东大学学报(工学版), 2006, 36(2): 22 -25 .
[3] 李 侃 . 嵌入式相贯线焊接控制系统开发与实现[J]. 山东大学学报(工学版), 2008, 38(4): 37 -41 .
[4] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[5] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[6] 李可,刘常春,李同磊 . 一种改进的最大互信息医学图像配准算法[J]. 山东大学学报(工学版), 2006, 36(2): 107 -110 .
[7] 季涛,高旭,孙同景,薛永端,徐丙垠 . 铁路10 kV自闭/贯通线路故障行波特征分析[J]. 山东大学学报(工学版), 2006, 36(2): 111 -116 .
[8] 浦剑1 ,张军平1 ,黄华2 . 超分辨率算法研究综述[J]. 山东大学学报(工学版), 2009, 39(1): 27 -32 .
[9] 刘文亮,朱维红,陈涤,张泓泉. 基于雷达图像的运动目标形态检测及跟踪技术[J]. 山东大学学报(工学版), 2010, 40(3): 31 -36 .
[10] 王丽君,黄奇成,王兆旭 . 敏感性问题中的均方误差与模型比较[J]. 山东大学学报(工学版), 2006, 36(6): 51 -56 .