您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报 (工学版) ›› 2020, Vol. 50 ›› Issue (4): 1-7.doi: 10.6040/j.issn.1672-3961.0.2019.423

• 机器学习与数据挖掘 •    下一篇

基于集成学习的O3的质量浓度预测模型

彭岩(),冯婷婷,王洁*()   

  1. 首都师范大学管理学院,北京 100048
  • 收稿日期:2019-07-25 出版日期:2020-08-20 发布日期:2020-08-13
  • 通讯作者: 王洁 E-mail:pengyan@cnu.edu.cn;wangjie@cnu.edu.cn
  • 作者简介:彭岩(1967—),女,重庆人,教授,博士,主要研究方向为大数据分析与数据挖掘.E-mail:pengyan@cnu.edu.cn
  • 基金资助:
    全国教育科学规划-教育部重点课题资助项目(DLA190426)

An integrated learning approach for O3 mass concentration prediction model

Yan PENG(),Tingting FENG,Jie WANG*()   

  1. School of Management, Captial Normal University, Beijing 100048, China
  • Received:2019-07-25 Online:2020-08-20 Published:2020-08-13
  • Contact: Jie WANG E-mail:pengyan@cnu.edu.cn;wangjie@cnu.edu.cn

摘要:

为准确预测O3的质量浓度及其发展趋势,分析其诱发因素,提出一种基于集成学习的O3的质量浓度预测模型。以北京市2015—2016年O3污染物的质量浓度及气象因素数据为基础,提出并建立面向O3污染物的质量浓度预测的特征选择-集成学习多层预测模型,在对数据进行缺失值填补及异常值分析的基础上,利用Pearson相关分析和Lasso回归分析同时对清理后的气象资料数据进行特征选择,以消除数据冗余,提高预测精度;提出基于自组织映射神经网络self-organizing featuremap, SOFM和Elman神经网络Elman neural network, ENN的集成学习算法,利用SOFM对样本数据进行聚类以实现样本的合理分布后,使用ENN进行仿真训练来预测O3的质量浓度。试验结果表明:采用Pearson-Lasso特征选择和SOFM样本聚类对数据做前期处理后,ENN的预测精度由74.6%提高到82.1%,能够改善基于ENN的O3污染物的质量浓度的预测准确率。

关键词: 北京市, 臭氧, 特征选择, 自组织映射神经网络, Elman神经网络

Abstract:

In order to accurately predict O3 mass concentration and development trend and to analyze inducing factors, an O3 mass concentration prediction model based on integrated learning was proposed. A multilayer FS-IL model for the O3 pollutant mass concentration was established in accordance with the data of O3 pollutant mass concentration and meteorological factors from 2015 to 2016 in Beijing, on the basis of missing value filling and outlier analysis, Pearson correlation analysis and Lasso regression analysis were used to select features of the cleaned meteorological data to eliminate data redundancy and improve prediction accuracy; an integrated learning algorithm based on self-organizing featuremap (SOFM)-Elman neural network (ENN) was proposed. After clustering sample data with SOFM to realize reasonable distribution of samples, ENN was used for simulation training to predict O3 mass concentration. The experimental results showed that the accuracy of ENN-based O3 pollutant mass concentration prediction was improved from 74.6% to 82.1% after the preliminary processing of data with Pearson-Lasso feature selection and SOFM sample clustering.

Key words: Beijing, ozone, feature selection, SOFM, ENN

中图分类号: 

  • TP181

图1

一维竞争层的SOFM结构"

图2

ENN拓扑图"

图3

基于特征选择-集成学习的多层预测模型"

图4

气象资料数据的箱型图"

表1

O3的质量浓度与气象因素Pearson相关系数"

Pearson相关系数 yi Pearson相关系数 yi
xi1 -0.59 xi6 0.69
xi2 -0.61 xi7 -0.09
xi3 -0.59 xi12 0.16
xi4 0.73 xi14 0.10
xi5 0.74 xi15 0.36

表2

Lasso特征选择系数表"

变量 系数 变量 系数
xi1 0.0745 xi6 0.2682
xi2 -0.1147 xi7 -0.4166
xi3 0.0000 xi12 0.4466
xi4 -0.0823 xi14 0.1061
xi5 0.0415 xi15 0.1813

图5

SOFM神经网络聚类"

图6

ENN测试集预测结果对比"

表3

仿真训练结果对比"

是否使用SOFM 使用SOFM聚类前 使用SOFM聚类后
ENN SVR RBF神经网络 BP神经网络 ENN SVR RBF神经网络 BP神经网络
MSE 0.5535 0.0649 0.5816 0.0630 0.0436 0.0451 0.4750 0.0478
R2 0.7462 0.7159 0.7318 0.7336 0.8211 0.8055 0.7932 0.8020
1 WANG Tao , XUE Likun , BRIMBLECOMBE Peter , et al. Ozone pollution in China: a review of concentrations, meteorological influences, chemical precursors, and effects[J]. Science of the Total Environment, 2017, 575 (1): 1582- 1596.
2 中华人民共和国生态环境保护部.2017中国生态环境状况公报[R].北京:中华人民共和国生态环境保护部, 2018.
Ministry of Environmental Protection of the People's Republic of China. China environmental status bulletin 2017[R]. Beijing: Ministry of Environmental Protection of the People's Republic of China, 2018.
3 LI Shuangjin , YANG Ning . Prediction and analysis of O3 based on the arima model[J]. Agricultural Science & Technology, 2015, 16 (10): 2146- 2148.
4 杜云松, 罗彬, 陈建文, 等. 气温在成都地区臭氧预报的运用研究[J]. 环境科学与技术, 2017, 40 (增刊1): 329- 334.
DU Yunsong , LUO Bin , CHEN Jianwen , et al. Study on the application of air temperature in ozone forecast in Chengdu area[J]. Environmental Science & Technology, 2017, 40 (Suppl.1): 329- 334.
5 陈博, 李迎春, 夏振平. 基于BP神经网络预测林内PM2.5浓度[J]. 安徽农业科学, 2019, 47 (1): 107- 110.
CHEN Bo , LI Yingchun , XIA Zhenping . Prediction of PM2.5 concentration in forest based on BP artificial neural network[J]. Journal of Anhui Agricultural Sciences, 2019, 47 (1): 107- 110.
6 张栗粽, 王谨平, 刘贵松, 等. 面向金融数据的神经网络时间序列预测模型[J]. 计算机应用研究, 2018, 35 (9): 2632- 2637.
ZHANG Lizong , WANG Jinping , LIU Guisong , et al. Neural network time series prediction model for financial data[J]. Application Research of Computers, 2018, 35 (9): 2632- 2637.
7 段满珍, 陈光, 张林, 等. 动态随机有效停车泊位预测方法[J]. 重庆交通大学学报(自然科学版), 2018, 36 (6): 81- 86.
DUAN Manzhen , CHEN Guang , ZHANG Lin , et al. Prediction method of dynamic stochastic effective parking space[J]. Journal of Chongqing Jiaotong University(Natural Science), 2018, 36 (6): 81- 86.
8 项丽萍, 杨红菊. 结合大数据流特征和改进SOM聚类的资源动态分配算法[J]. 计算机应用与软件, 2019, 36 (5): 262- 280.
XIANG Liping , YANG Hongju . Dynamic resource allocation algorithm based on big data stream characteristic and improved SOM clustering[J]. Computer Applications and Software, 2019, 36 (5): 262- 280.
9 金林, 李研. 几种相关系数辨析及其在R语言中的实现[J]. 统计与信息论坛, 2019, 34 (4): 3- 11.
JIN Lin , LI Yan . Discrimination of several correlation coefficients and their implementation in R software[J]. Statistics & Information Forum, 2019, 34 (4): 3- 11.
10 喻胜华, 龚尚花. 基于Lasso和支持向量机的粮食价格预测[J]. 湖南大学学报(社会科学版), 2016, 30 (1): 71- 72.
YU Shenghua , GONG Shanghua . A study on grain price prediction based on lasso and support vector machine[J]. Journal of Hunan University(Social Sciences), 2016, 30 (1): 71- 72.
11 董小刚, 刁亚静, 李慧玲, 等. 岭回归、LASSO回归和Adaptive-LASSO回归下的财政收入因素分析[J]. 吉林师范大学学报(自然科学版), 2018, 39 (2): 45- 53.
DONG Xiaogang , DIAO Yajing , LI Huiling , et al. The analysis of the fiscal revenue factors under the ridge regression, LASSO regression and the Adaptive-LASSO regression[J]. Jilin Normal University Journal(Natural Science Edition), 2018, 39 (2): 45- 53.
12 丁天一, 张旻. 一种SOFM网络的二阶段聚类算法[J]. 小型微型计算机系统, 2018, 39 (2): 329- 333.
DING Tianyi , ZHANG Min . Two-phase clustering algorithm based on self-organizing feature maps[J]. Journal of Chinese Computer Systems, 2018, 39 (2): 329- 333.
13 刘子英, 朱琛磊. 基于Elman神经网络模型的IGBT寿命预测[J]. 半导体技术, 2019, 44 (5): 395- 400.
LIU Ziying , ZHU Chenlei . IGBT life prediction based on Elman neural network model[J]. Semiconductor Technology, 2019, 44 (5): 395- 400.
14 李志新, 赖志琴, 龙云墨. 基于GA-Elman神经网络的参考作物需水量预测[J]. 节水灌溉, 2019, 44 (2): 117- 120.
LI Zhixin , LAI Zhiqin , LONG Yunmo . Prediction of water demand for reference crops based on GA-Elman neural network model[J]. Water Saving Irrigation, 2019, 44 (2): 117- 120.
15 金百锁, 李炽坤. 基于稳健S估计的长江流域气象异常值检测[J]. 中国科学技术大学学报, 2018, 48 (11): 869- 876.
JIN Baisuo , LI Chikun . Outlier detection of Yangtze River basin meteorological data based on robust S-estimator[J]. Journal of University of Science and Technology of China, 2018, 48 (11): 869- 876.
16 程志炜, 陈财森, 朱连军, 等. 基于Pearson相关系数的Cache计时模板攻击方法[J]. 计算机工程, 2019, 45 (7): 159- 163.
CHENG Zhiwei , CHEN Caisen , ZHU Lianjun , et al. Cache timing template attack method based on pearson correlation coefficient[J]. Computer Engineering, 2019, 45 (7): 159- 163.
17 ZHANG Zheng , XU Yong , YANG Jian , et al. A survey of sparse representation:algorithms and applications[J]. IEEE Access, 2015, 3, 490- 530.
18 高永, 郝晓丽, 吕进来. 互信息熵和Prewitt差测度的Lasso模型关键帧提取[J]. 中国科技论文, 2017, 12 (20): 2342- 2348.
GAO Yong , HAO Xiaoli , LÜ Jinlai . Lasso model key frame extraction for mutual information entropy and Prewitt difference measure[J]. China Sciencepaper, 2017, 12 (20): 2342- 2348.
19 邵惠芳, 赵昕宇, 许自成, 等. 基于SOFM网络的烤烟感官质量聚类模式分析[J]. 中国烟草学报, 2016, 22 (1): 13- 23.
SHAO Huifang , ZHAO Xinyu , XU Zicheng , et al. Clustering pattern analysis of sensory quality in flue-cured tobacco based on SOFM network[J]. Acta Tabacaria Sinica, 2016, 22 (1): 13- 23.
20 片坤, 徐晓钟, 张益铭. 一种改进的组合SOFM-SVR股票价格预测模型[J]. 计算机应用与软件, 2010, 27 (5): 172- 175.
PIAN Kun , XU Xiaozhong , ZHANG Yiming . An improved combined SOFM-SVR model for stock price prediction[J]. Computer Applications and Software, 2010, 27 (5): 172- 175.
[1] 汪嘉晨,唐向红,陆见光. 轴承故障诊断中特征选取技术[J]. 山东大学学报 (工学版), 2019, 49(2): 80-87, 95.
[2] 陈红,杨小飞,万青,马盈仓. 基于相关熵和流形学习的多标签特征选择算法[J]. 山东大学学报 (工学版), 2018, 48(6): 27-36.
[3] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报 (工学版), 2018, 48(5): 32-37.
[4] 肖迪,廉静,纪少波,赵盛晋,徐怀民. 臭氧对甲烷/空气层流火焰传播速度影响规律[J]. 山东大学学报(工学版), 2017, 47(4): 59-63.
[5] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[6] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[7] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[8] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[9] 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20.
[10] 潘冬寅,朱发,徐昇,业宁*. 结肠癌基因表达谱的特征选取研究[J]. 山东大学学报(工学版), 2012, 42(2): 23-29.
[11] 李霞1,王连喜2,蒋盛益1. 面向不平衡问题的集成特征选择[J]. 山东大学学报(工学版), 2011, 41(3): 7-11.
[12] 尤鸣宇,陈燕,李国正. 不均衡问题中的特征选择新算法:Im-IG[J]. 山东大学学报(工学版), 2010, 40(5): 123-128.
[13] 阳爱民1,周咏梅1,邓河2,周剑峰3. 一种网络流量分类特征的产生及选择方法[J]. 山东大学学报(工学版), 2010, 40(5): 1-7.
[14] 谭台哲,梁应毅,刘富春. 一种ReliefF特征估计方法在无监督流形学习中的应用[J]. 山东大学学报(工学版), 2010, 40(5): 66-71.
[15] 戴平,李宁*. 一种基于SVM的快速特征选择方法[J]. 山东大学学报(工学版), 2010, 40(5): 60-65.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 张永花,王安玲,刘福平 . 低频非均匀电磁波在导电界面的反射相角[J]. 山东大学学报(工学版), 2006, 36(2): 22 -25 .
[2] 孔祥臻,刘延俊,王勇,赵秀华 . 气动比例阀的死区补偿与仿真[J]. 山东大学学报(工学版), 2006, 36(1): 99 -102 .
[3] 陈瑞,李红伟,田靖. 磁极数对径向磁轴承承载力的影响[J]. 山东大学学报(工学版), 2018, 48(2): 81 -85 .
[4] 秦通,孙丰荣*,王丽梅,王庆浩,李新彩. 基于极大圆盘引导的形状插值实现三维表面重建[J]. 山东大学学报(工学版), 2010, 40(3): 1 -5 .
[5] 刘文亮,朱维红,陈涤,张泓泉. 基于雷达图像的运动目标形态检测及跟踪技术[J]. 山东大学学报(工学版), 2010, 40(3): 31 -36 .
[6] 张英,郎咏梅,赵玉晓,张鉴达,乔鹏,李善评 . 由EGSB厌氧颗粒污泥培养好氧颗粒污泥的工艺探讨[J]. 山东大学学报(工学版), 2006, 36(4): 56 -59 .
[7] 孙国华,吴耀华,黎伟. 消费税控制策略对供应链系统绩效的影响[J]. 山东大学学报(工学版), 2009, 39(1): 63 -68 .
[8] 刘忠国,张晓静,刘伯强,刘常春 . 视觉刺激间隔对大脑诱发电位的影响[J]. 山东大学学报(工学版), 2006, 36(3): 34 -38 .
[9] 孙殿柱,朱昌志,李延瑞 . 散乱点云边界特征快速提取算法[J]. 山东大学学报(工学版), 2009, 39(1): 84 -86 .
[10] 关小军,韩振强,申孝民,麻晓飞,刘运腾 . 09CuPTiRE钢动态再结晶的热模拟实验与有限元模拟[J]. 山东大学学报(工学版), 2006, 36(5): 17 -20 .