山东大学学报 (工学版) ›› 2020, Vol. 50 ›› Issue (4): 1-7.doi: 10.6040/j.issn.1672-3961.0.2019.423
• 机器学习与数据挖掘 • 下一篇
Yan PENG(),Tingting FENG,Jie WANG*()
摘要:
为准确预测O3的质量浓度及其发展趋势,分析其诱发因素,提出一种基于集成学习的O3的质量浓度预测模型。以北京市2015—2016年O3污染物的质量浓度及气象因素数据为基础,提出并建立面向O3污染物的质量浓度预测的特征选择-集成学习多层预测模型,在对数据进行缺失值填补及异常值分析的基础上,利用Pearson相关分析和Lasso回归分析同时对清理后的气象资料数据进行特征选择,以消除数据冗余,提高预测精度;提出基于自组织映射神经网络self-organizing featuremap, SOFM和Elman神经网络Elman neural network, ENN的集成学习算法,利用SOFM对样本数据进行聚类以实现样本的合理分布后,使用ENN进行仿真训练来预测O3的质量浓度。试验结果表明:采用Pearson-Lasso特征选择和SOFM样本聚类对数据做前期处理后,ENN的预测精度由74.6%提高到82.1%,能够改善基于ENN的O3污染物的质量浓度的预测准确率。
中图分类号:
1 | WANG Tao , XUE Likun , BRIMBLECOMBE Peter , et al. Ozone pollution in China: a review of concentrations, meteorological influences, chemical precursors, and effects[J]. Science of the Total Environment, 2017, 575 (1): 1582- 1596. |
2 | 中华人民共和国生态环境保护部.2017中国生态环境状况公报[R].北京:中华人民共和国生态环境保护部, 2018. |
Ministry of Environmental Protection of the People's Republic of China. China environmental status bulletin 2017[R]. Beijing: Ministry of Environmental Protection of the People's Republic of China, 2018. | |
3 | LI Shuangjin , YANG Ning . Prediction and analysis of O3 based on the arima model[J]. Agricultural Science & Technology, 2015, 16 (10): 2146- 2148. |
4 | 杜云松, 罗彬, 陈建文, 等. 气温在成都地区臭氧预报的运用研究[J]. 环境科学与技术, 2017, 40 (增刊1): 329- 334. |
DU Yunsong , LUO Bin , CHEN Jianwen , et al. Study on the application of air temperature in ozone forecast in Chengdu area[J]. Environmental Science & Technology, 2017, 40 (Suppl.1): 329- 334. | |
5 | 陈博, 李迎春, 夏振平. 基于BP神经网络预测林内PM2.5浓度[J]. 安徽农业科学, 2019, 47 (1): 107- 110. |
CHEN Bo , LI Yingchun , XIA Zhenping . Prediction of PM2.5 concentration in forest based on BP artificial neural network[J]. Journal of Anhui Agricultural Sciences, 2019, 47 (1): 107- 110. | |
6 | 张栗粽, 王谨平, 刘贵松, 等. 面向金融数据的神经网络时间序列预测模型[J]. 计算机应用研究, 2018, 35 (9): 2632- 2637. |
ZHANG Lizong , WANG Jinping , LIU Guisong , et al. Neural network time series prediction model for financial data[J]. Application Research of Computers, 2018, 35 (9): 2632- 2637. | |
7 | 段满珍, 陈光, 张林, 等. 动态随机有效停车泊位预测方法[J]. 重庆交通大学学报(自然科学版), 2018, 36 (6): 81- 86. |
DUAN Manzhen , CHEN Guang , ZHANG Lin , et al. Prediction method of dynamic stochastic effective parking space[J]. Journal of Chongqing Jiaotong University(Natural Science), 2018, 36 (6): 81- 86. | |
8 | 项丽萍, 杨红菊. 结合大数据流特征和改进SOM聚类的资源动态分配算法[J]. 计算机应用与软件, 2019, 36 (5): 262- 280. |
XIANG Liping , YANG Hongju . Dynamic resource allocation algorithm based on big data stream characteristic and improved SOM clustering[J]. Computer Applications and Software, 2019, 36 (5): 262- 280. | |
9 | 金林, 李研. 几种相关系数辨析及其在R语言中的实现[J]. 统计与信息论坛, 2019, 34 (4): 3- 11. |
JIN Lin , LI Yan . Discrimination of several correlation coefficients and their implementation in R software[J]. Statistics & Information Forum, 2019, 34 (4): 3- 11. | |
10 | 喻胜华, 龚尚花. 基于Lasso和支持向量机的粮食价格预测[J]. 湖南大学学报(社会科学版), 2016, 30 (1): 71- 72. |
YU Shenghua , GONG Shanghua . A study on grain price prediction based on lasso and support vector machine[J]. Journal of Hunan University(Social Sciences), 2016, 30 (1): 71- 72. | |
11 | 董小刚, 刁亚静, 李慧玲, 等. 岭回归、LASSO回归和Adaptive-LASSO回归下的财政收入因素分析[J]. 吉林师范大学学报(自然科学版), 2018, 39 (2): 45- 53. |
DONG Xiaogang , DIAO Yajing , LI Huiling , et al. The analysis of the fiscal revenue factors under the ridge regression, LASSO regression and the Adaptive-LASSO regression[J]. Jilin Normal University Journal(Natural Science Edition), 2018, 39 (2): 45- 53. | |
12 | 丁天一, 张旻. 一种SOFM网络的二阶段聚类算法[J]. 小型微型计算机系统, 2018, 39 (2): 329- 333. |
DING Tianyi , ZHANG Min . Two-phase clustering algorithm based on self-organizing feature maps[J]. Journal of Chinese Computer Systems, 2018, 39 (2): 329- 333. | |
13 | 刘子英, 朱琛磊. 基于Elman神经网络模型的IGBT寿命预测[J]. 半导体技术, 2019, 44 (5): 395- 400. |
LIU Ziying , ZHU Chenlei . IGBT life prediction based on Elman neural network model[J]. Semiconductor Technology, 2019, 44 (5): 395- 400. | |
14 | 李志新, 赖志琴, 龙云墨. 基于GA-Elman神经网络的参考作物需水量预测[J]. 节水灌溉, 2019, 44 (2): 117- 120. |
LI Zhixin , LAI Zhiqin , LONG Yunmo . Prediction of water demand for reference crops based on GA-Elman neural network model[J]. Water Saving Irrigation, 2019, 44 (2): 117- 120. | |
15 | 金百锁, 李炽坤. 基于稳健S估计的长江流域气象异常值检测[J]. 中国科学技术大学学报, 2018, 48 (11): 869- 876. |
JIN Baisuo , LI Chikun . Outlier detection of Yangtze River basin meteorological data based on robust S-estimator[J]. Journal of University of Science and Technology of China, 2018, 48 (11): 869- 876. | |
16 | 程志炜, 陈财森, 朱连军, 等. 基于Pearson相关系数的Cache计时模板攻击方法[J]. 计算机工程, 2019, 45 (7): 159- 163. |
CHENG Zhiwei , CHEN Caisen , ZHU Lianjun , et al. Cache timing template attack method based on pearson correlation coefficient[J]. Computer Engineering, 2019, 45 (7): 159- 163. | |
17 | ZHANG Zheng , XU Yong , YANG Jian , et al. A survey of sparse representation:algorithms and applications[J]. IEEE Access, 2015, 3, 490- 530. |
18 | 高永, 郝晓丽, 吕进来. 互信息熵和Prewitt差测度的Lasso模型关键帧提取[J]. 中国科技论文, 2017, 12 (20): 2342- 2348. |
GAO Yong , HAO Xiaoli , LÜ Jinlai . Lasso model key frame extraction for mutual information entropy and Prewitt difference measure[J]. China Sciencepaper, 2017, 12 (20): 2342- 2348. | |
19 | 邵惠芳, 赵昕宇, 许自成, 等. 基于SOFM网络的烤烟感官质量聚类模式分析[J]. 中国烟草学报, 2016, 22 (1): 13- 23. |
SHAO Huifang , ZHAO Xinyu , XU Zicheng , et al. Clustering pattern analysis of sensory quality in flue-cured tobacco based on SOFM network[J]. Acta Tabacaria Sinica, 2016, 22 (1): 13- 23. | |
20 | 片坤, 徐晓钟, 张益铭. 一种改进的组合SOFM-SVR股票价格预测模型[J]. 计算机应用与软件, 2010, 27 (5): 172- 175. |
PIAN Kun , XU Xiaozhong , ZHANG Yiming . An improved combined SOFM-SVR model for stock price prediction[J]. Computer Applications and Software, 2010, 27 (5): 172- 175. |
[1] | 汪嘉晨,唐向红,陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87, 95. |
[2] | 陈红,杨小飞,万青,马盈仓. 基于相关熵和流形学习的多标签特征选择算法[J]. 山东大学学报 (工学版), 2018, 48(6): 27-36. |
[3] | 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报 (工学版), 2018, 48(5): 32-37. |
[4] | 肖迪,廉静,纪少波,赵盛晋,徐怀民. 臭氧对甲烷/空气层流火焰传播速度影响规律[J]. 山东大学学报(工学版), 2017, 47(4): 59-63. |
[5] | 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42. |
[6] | 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21. |
[7] | 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27. |
[8] | 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18. |
[9] | 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20. |
[10] | 潘冬寅,朱发,徐昇,业宁*. 结肠癌基因表达谱的特征选取研究[J]. 山东大学学报(工学版), 2012, 42(2): 23-29. |
[11] | 李霞1,王连喜2,蒋盛益1. 面向不平衡问题的集成特征选择[J]. 山东大学学报(工学版), 2011, 41(3): 7-11. |
[12] | 尤鸣宇,陈燕,李国正. 不均衡问题中的特征选择新算法:Im-IG[J]. 山东大学学报(工学版), 2010, 40(5): 123-128. |
[13] | 阳爱民1,周咏梅1,邓河2,周剑峰3. 一种网络流量分类特征的产生及选择方法[J]. 山东大学学报(工学版), 2010, 40(5): 1-7. |
[14] | 谭台哲,梁应毅,刘富春. 一种ReliefF特征估计方法在无监督流形学习中的应用[J]. 山东大学学报(工学版), 2010, 40(5): 66-71. |
[15] | 戴平,李宁*. 一种基于SVM的快速特征选择方法[J]. 山东大学学报(工学版), 2010, 40(5): 60-65. |
|