您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2010, Vol. 40 ›› Issue (5): 56-59.

• 论文 • 上一篇    下一篇

采样特异性因子及异常检测

孙静宇,余雪丽,陈俊杰, 李鲜花   

  1. 太原理工大学计算机科学与技术学院, 山西 太原 030024
  • 收稿日期:2010-05-20 出版日期:2010-10-16 发布日期:2010-05-20
  • 作者简介:孙静宇(1975-),男,博士生,讲师,主要研究方向为Web Search、案例推理、个性化推荐技术、数据挖掘. E-mail:whitesunpersun@163.com
  • 基金资助:

    山西省自然科学基金资助项目(200821024)

Sampled peculiarity factor and its application in anomaly detection

SUN Jing-yu, YU Xue-li, CHEN Jun-jie, LI Xian-hua   

  1. College of Computer Science and Technology, Taiyuan University of Technology, Taiyuan 030024, China
  • Received:2010-05-20 Online:2010-10-16 Published:2010-05-20

摘要:

特异性因子是数据的重要特征之一,常通过累计数据之间的差异得到,是面向特异性挖掘的核心概念,然而遇到了计算时间复杂度过高的问题。本文在分析已有特异性因子定义特点及其计算算法时间复杂度的基础上,指出应该基于采样的方法定义特异性因子。给出了一种基于采样的特异性因子定义,即采样特异性因子(sampled peculiarity factor,SPF),并提出了一种基于SPF的异常检测算法。在真实数据集上进行对比实验,结果表明:该算法在检测异常数据时,精度降低不明显,而运行效率得以较大提高,这说明基于采样定义特异性因子的方法可行和更为合理。本文还指出采用合适的采样方法可经进一步优化SPF的计算过程,进而节约占用CPU时间和满足实时性要求高的应用。

关键词: 采样, 特异性因子, 异常检测, 数据挖掘, 时间复杂度, 实时性

Abstract:

The peculiarity factor (PF), an important feature of data and obtained by accumulating differences between data, is a core concept of peculiarity-oriented mining (POM). But it meets a higher computational time complexity for any algorithm.A sampled approach firstly was suggested to define PF through analyzing current versions of PF and computational complexities of algorithms to compute it. A sampled PF (SPF) was proposed to meet realtime requirement and a SPFoutlier detection algorithm was given. Experiments using real datasets show that the SPF-outlier detection algorithm is efficient with losing a few of precisions through contrasting with two baseline algorithms and it is a feasible and right approach to define PF by sampling. Furthermore, some right sampling methods could be used to compute SPFs in order to meet real-time requirement.

Key words: sampling, peculiarity factor, outlier detection, data mining, time complexity, real-time

[1] 赵亚楠,王新锋,李锐,陈天舒,薛丽坤,王文兴. 大气采样干燥技术除湿效果的测试与对比[J]. 山东大学学报(工学版), 2018, 48(4): 128-136.
[2] 庞人铭,王波,叶昊,张海峰,李明亮. 基于PCA相似度和谱聚类相结合的高炉历史数据聚类[J]. 山东大学学报(工学版), 2017, 47(5): 143-149.
[3] 姚宇,冯健,张化光,韩克镇. 一种基于椭球体支持向量描述的异常检测方法[J]. 山东大学学报(工学版), 2017, 47(5): 195-202.
[4] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[5] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[6] 周哲, 商琳. 一种基于动态词典和三支决策的情感分析方法[J]. 山东大学学报(工学版), 2015, 45(1): 19-23.
[7] 朱全银1,严云洋1,周培1,谷天峰2. 一种线性插补与自适应滑动窗口价格预测模型[J]. 山东大学学报(工学版), 2012, 42(5): 53-58.
[8] 琚春华1,2,陈之奇1*. 一种挖掘概念漂移数据流的模糊积分集成分类方法[J]. 山东大学学报(工学版), 2011, 41(4): 44-48.
[9] 宋威,刘文博,李晋宏. 基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J]. 山东大学学报(工学版), 2011, 41(4): 49-55.
[10] 王爱国,李廉*,杨静,陈桂林. 一种基于Bayesian网络的网页推荐算法[J]. 山东大学学报(工学版), 2011, 41(4): 137-142.
[11] 张新猛,蒋盛益. 一种基于相似度概率的不确定分类数据聚类算法[J]. 山东大学学报(工学版), 2011, 41(3): 12-16.
[12] 王心一1,杜光2*. 降采样固定时延估算法在声回波对消系统中的应用[J]. 山东大学学报(工学版), 2011, 41(3): 42-45.
[13] 李丽萍1,杨静2,刘常春1,刘澄玉1,张庆广1,李可1. 重采样对脉搏间期序列谱分析的影响[J]. 山东大学学报(工学版), 2011, 41(2): 102-106.
[14] 陈斌 陈松灿 潘志松 李斌. 异常检测综述[J]. 山东大学学报(工学版), 2009, 39(6): 13-23.
[15] 董乃鹏 赵合计 SCHOMMER Christoph. 作者写作特征提取引擎[J]. 山东大学学报(工学版), 2009, 39(5): 27-31.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!