文章快速检索     高级检索
  山东大学学报(工学版)  2018, Vol. 48 Issue (3): 127-133  DOI: 10.6040/j.issn.1672-3961.0.2017.423
0

引用本文 

曹雅, 邓赵红, 王士同. 基于单调约束的径向基函数神经网络模型[J]. 山东大学学报(工学版), 2018, 48(3): 127-133. DOI: 10.6040/j.issn.1672-3961.0.2017.423.
CAO Ya, DENG Zhaohong, WANG Shitong. An radial basis function neural network model based on monotonic constraints[J]. Journal of Shandong University (Engineering Science), 2018, 48(3): 127-133. DOI: 10.6040/j.issn.1672-3961.0.2017.423.

基金项目

江苏省杰出青年基金资助项目(BK20140001);国家重点研发计划资助项目(2016YFB0800803);国家自然科学基金资助项目(61772239)

作者简介

曹雅(1992—),女,江苏盐城人,硕士研究生,主要研究方向为人工智能与模式识别. E-mail:caoya1027@163.com

通讯作者

邓赵红(1981—),男,安徽蒙城人,教授,博导,博士,主要研究方向为人工智能与模式识别. E-mail:dengzhaohong@jiangnan.edu.cn

文章历史

收稿日期:2017-05-05
网络出版时间:2018-04-18 17:11:52
基于单调约束的径向基函数神经网络模型
曹雅, 邓赵红, 王士同     
江南大学数字媒体技术学院, 江苏 无锡 214122
摘要:径向基函数(radial basis function, RBF)神经网络是一种高效的前馈式神经网络。它结构简单, 具有良好的泛化能力, 已经被广泛的应用于数据分类中。但是对于一些特殊的分类场景, 如单调数据场景, 神经网络还未充分发挥其潜能。针对此, 提出单调径向基函数神经网络(monotonic radial basis function neural network, MC-RBF)。MC-RBF引入Tikhonov正则化方法确保优化问题解的唯一性与有界性。试验结果表明, 在处理具有单调性的数据集时, MC-RBF比原始的RBF神经网络具有更好的分类性能。
关键词径向基函数神经网络    单调约束    数据分类    Tikhonov正则化    分类性能    
An radial basis function neural network model based on monotonic constraints
CAO Ya, DENG Zhaohong, WANG Shitong     
School of Digital Media, Jiangnan University, Wuxi 214122, Jiangsu, China
Abstract: Radial basis function (RBF) neural network was a type of efficient feedforward neural network, which had simple structure and good generalization ability. It had been widely used in data classification. However, for some special classification scenarios, such as the scenarios of dealing with the monotonic data, RBF neural network could not fully realize its potential. For this challenge, monotonic radial basis function neural network (MC-RBF) was proposed. The model added a prior knowledge about monotonicity which was expressed in terms of inequality based on partial order of training data. The Tikhonov regularization was introduced to MC-RBF to ensure the uniqueness and boundedness of the solution of the optimization problem. The experimental results showed that MC-RBF had better classification performance than the classical RBF neural network when dealing with monotonic datasets.
Key words: radial basis function neural network    monotonic constraint    data classification    Tikhonov regularization    classification performance    
0 引言

神经网络是在现代生物学研究人脑组织成果的基础上提出来的, 用来模拟人类大脑神经网络的结构和行为。近年来, 随着神经科学的快速发展, 各个科学门类的空前进步, 以及智能化的不断普及, 发展新型计算机和人工智能新途径已经被迫切需要, 因此, 全球性的神经网络研究热潮得以兴起。迄今为止, 神经网络模型的种类相当丰富, 已经发展到近40种。其中最常见的神经网络有反向传播(back propagation, BP)神经网络、径向基函数神经网络、Hopfield网络以及卷积神经网络(convolutional neural network, CNN)等。在这些神经网络模型中, RBF神经网络以其网络设计采用原理化方法, 结构简单并且具有坚实的数学基础等多种优点而广泛应用于图像处理、语音识别、模式识别、雷达原点定位、医疗诊断等领域。由于RBF神经网络具有良好的分类能力因此主要运用在分类问题中, 如文献[1]提出将RBF神经网络用于遥感影像分类中, 通过在网络结构设计上使RBF层与输出层的节点数都等于所要分类的类别数, 用Kohonen聚类算法确定RBF中心的时候, 用训练样本的均值作为初始中心, 并在求取RBF宽度时进行了改进, 以避免内存溢出。所设计的RBF神经网络分类模型具有结构简单、算法简洁的优点。文献[2]中提出了一种基于遗传算法优化的RBF神经网络故障诊断方法, 此诊断方法首先利用小波包分解的方法对传感器电路的各种故障数据进行特征提取, 再将所得的特征向量输入到遗传算法优化的RBF神经网络进行故障诊断。经过MATLAB仿真, 此故障诊断方法不仅对传感器故障进行准确分类, 而且提高了BP神经网络的收敛性。

RBF神经网络虽然已获得广泛应用, 但是对于一些特殊的分类场景的研究如单调分类场景, 仍然比较缺乏。现实生活中存在着大量的有序关系及优先关系, 例如消费者选购商品时根据商品的价格和质量做决定; 投资者按照股票或债券的増值空间与风险等级选择股票或债券; 还有诸如对风险用户等级的评定及对学生综合水平的排序等问题。在这些情况中, 决策任务的条件属性和决策属性之间存在序的关系, 就是说数据库中条件属性和决策属性的取值是有顺序的, 且他们之间具有如下单调性约束:当一个对象的所有条件属性上的取值都不比另一个对象差时, 它的决策也不会比另一个对象的决策差, 这就是单调分类任务[3-4]。这些年, 随着对分类任务的研究, 一般的分类问题已经取得了较好的分类准确率, 但是这些任务中很少考虑序的关系, 因此可能得到不一致的决策规则, 这就需要研究者深入研究基于输入和输出变量之间的单调关系的先验知识, 即从大量的、不完全的、有噪声的数据中通过算法搜索隐藏于其中的知识, 从而提取出潜在的有用信息[5]。在单调分类问题中, 单调约束先验知识的发现对分类器的改进非常重要。但一般的神经网络算法未考虑过此类问题。因此, 建立合适的数学模型充分利用数据中存在的单调约束知识, 对单调分类领域的发展具有一定的意义。针对单调分类任务的特点, 研究相应的既具有传统神经网络算法优点又能适应单调分类任务的单调RBF神经网络是非常必要的。因而, 考虑到单调分类场景数据的先验知识, 需要在RBF神经网络的学习中充分利用单调约束来充分提升网络分类模型的分类性能。

基于上述分析, 本研究提出了一种新的用于分类的单调径向基函数神经网络模型。该模型添加了关于单调性的先验知识, 并以基于训练数据的偏序的不等式形式表示出来。由于加入单调约束到RBF神经网络模型的优化目标函数, 使得在解决相应的二次规划问题时可能会导致凸性损失, 针对此, 目标函数中引入了Tikhonov正则化方法来确保模型参数解的唯一性与有界性[6-8]。最终的模型被叫作单调RBF神经网络模型。对于提出的新方法, 在多组单调分类数据上进行了性能评估, 试验分析表明所提出的方法要优于一般的RBF神经网络模型。本研究主要贡献可概括如下:(1)在RBF神经网络上添加单调约束先验知识, 提出新的单调RBF神经网络模型; (2)进一步采用Tikhonov正则化方法确保单调RBF神经网络模型解的唯一性与有界性; (3)通过对比试验验证本研究所提出的方法的有效性。

1 相关工作 1.1 单调性、单调数据集与单调惩罚度量函数

在数据挖掘应用中存在如下单调数据场景:如果一个样本点的属性值高于另一个样本点, 那么它的输出值也会相应大于另一个样本, 也就是说存在一个在输入与输出变量之间的单调关系, 增加输入变量的值那么输出变量的值也很有可能会增加。不失一般性, 在本研究中只讨论递增的例子, 在数学上来说, 单调性可以被定义为如下。

定义1(单调性)  设f(x) : RnR, 一个偏序关系≤被定义在输入空间Rn, 一个线性关系被定义在空间R。如果满足下面的条件, 那么f就是单调的:

$ \mathit{\boldsymbol{x}} \le \mathit{\boldsymbol{x'}} \Rightarrow f\left( \mathit{\boldsymbol{x}} \right) \le f\left( {\mathit{\boldsymbol{x'}}} \right),\;\;\;\forall \mathit{\boldsymbol{x}},\mathit{\boldsymbol{x'}}。$

本研究以一个比较直观的方式在输入空间Rn定义偏序关系, 形如x= (x1, x2, …, xn)以及x′=(x1, x2, …, xn), xx′当且仅当xixi对于i=1, …, n都成立。如果一个函数是单调的就说它具有单调属性。

定义2(单调数据集)  对一个数据集$\mathfrak{I}$= {(xi, yi)|i=1, 2, …, n}, 当xixj$ \Rightarrow $ yiyj则认为这对数据点(xi, yi)和(xj, yj)不违背单调性。

定义3 (单调惩罚度量函数)  根据定义1对于数据集$\mathfrak{I}$= {(xi, yi)|i=1, 2, …, n}以及学习过程中产生的假设g : RnR使其近似于f, 那么设目标函数f : RnRxi对应的取值为yi。根据文献[9-10], 某些数据对其先验知识是形如xxf(x)≤ f(x′)这种不等式形式的, 可以增加目标函数的单调性。与这个数据对有关的单调先验知识的误差表示为

$ \xi \left( {\mathit{\boldsymbol{x}},\mathit{\boldsymbol{x'}}} \right) = \left\{ {\begin{array}{*{20}{c}} {g\left( \mathit{\boldsymbol{x}} \right) - g\left( {\mathit{\boldsymbol{x'}}} \right)}&{g\left( \mathit{\boldsymbol{x}} \right) > g\left( {\mathit{\boldsymbol{x'}}} \right)}\\ 0&{g\left( \mathit{\boldsymbol{x}} \right) \ge g\left( {\mathit{\boldsymbol{x'}}} \right)} \end{array}} \right.。$ (1)

对于一个有单调先验知识的问题, 随机给定一些数据对, 定义Λ={(xi, xi)|xixi, i=1, …, M}, 其中xixi存在单调关系, xi中的下划线表示xi的决策函数值不比xi得决策函数值大, 分类器的预测结果应该尽可能满足单调约束f(xi)≤ f(xi), i=1, …, M。即与单调先验知识有关的误差应该尽可能小, 因此根据式(1), 需要最小化ξ(xi, xi), i=1, …, M。为此通过一个比较常见的方法来最小化惩罚函数

$ {E_M} = \sum\limits_{i = 1}^M {{\beta _i}\xi \left( {\underline {{\mathit{\boldsymbol{x}}_i}} ,{{\mathit{\boldsymbol{\bar x}}}_i}} \right)} , $ (2)

式中, βi都是一个常量或者变量的非负数[11]

1.2 RBF神经网络

RBF神经网络, 是由J.Moody和C.Darken在20世纪80年代末提出的一种前馈型神经网络[12]。由于它模拟了人脑中局部调整、相互覆盖接收域的神经网络结构, 它是一种局部逼近网络, 能以任意精度逼近任意连续函数, 收敛速度快[13]。它还有很强的非线性拟合能力, 可映射任意复杂的非线性关系, 而且学习规则简单, 便于计算机实现。

RBF神经网络网络是一种三层前向网络, 即输入层、隐含层和输出层, 经典的RBF神经网络训练过程主要分为两步:第一步是采用聚类[14-16]等方法构造初始化的网络模型; 第二步是参数训练。通常, 一个具有n个输入值、m个隐藏节点以及一个输出值的RBF神经网络结构如图 1所示[17]。输入层由信号源节点组成, 每个输入神经元对应于输入向量的元素并且完全连接到m个隐藏层神经元, 每个隐藏层神经元也完全连接到输出神经元, 输出层对输入模式做出响应, 由于输入到输出的映射是非线性的, 而隐含层空间到输出空间的映射是线性的, 从而可以大大加快学习速度并避免局部极小问题。

图 1 RBF神经网络结构 Figure 1 Structure of RBF neural network

RBF神经网络最常用的基函数是高斯函数, 即对于任意的输入向量xiRn(Rn为输入样本集), 有

$ \begin{array}{l} y\left( {{\mathit{\boldsymbol{x}}_i}} \right) = \sum\limits_{j = 1}^N {{w_j}\mathit{\Phi }\left( {\left\| {{\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{c}}_j}} \right\|} \right)} ,\\ i = 1,2, \cdots ,N,j = 1,2, \cdots ,M。\end{array} $ (3)

式中:y(xi)表示第i个输入神经元连接第j个隐藏层节点的输出; wj表示隐含层到输出层的连接权值; cjRn, j=1, 2, …M, 为隐含层的第j个节点的中心; Φ即为径向基函数, 也就是是高斯函数, ‖· ‖在这里表示欧几里得范数。为了便于理论性分析, 可将函数表示为

$ \mathit{\Phi }\left( {\left\| {{\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{c}}_j}} \right\|} \right) = \exp \left( { - {{\left\| {{\mathit{\boldsymbol{x}}_i} - {\mathit{\boldsymbol{c}}_j}} \right\|}^2}/{\delta _j}} \right), $ (4)

式中δj为宽度。

隐含层节点通过基函数执行一种非线性变化, 将输入空间映射到一个新的空间, 输出层则在这个新的空间实现线性加权组合[18]。此处的权值wj为可调参数。由此可见, 从总体上看, 网络由输入到输出的映射是非线性的, 而网络输出对可调参数而言却又是线性的。这样网络的权值就可由线性方程直接解出, 从而大大加快学习速度并避免局部极小问题[19]。它的优点在于能够逼近任意的非线性函数, 可以处理系统内难以解析的规律性, 具有良好的泛化能力, 并有很快的学习收敛速度, 并已成功应用于图像处理、非线性函数逼近、模式识别、数据分类等方面[20]

径向基神经网络作为前馈神经网络的一种, 数据x从输入到输出经过了某种映射Φ, 最后得到一个输出y, 这种映射关系可以简化为

$ y = f\left( \mathit{\boldsymbol{x}} \right) = \mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{x}}_g}, $ (5)

式中:Pg即式(4)中的连接权值wj表示的向量; xg表示输入向量x经过映射函数Φ映射过后的值。

2 单调RBF神经网络

基于1.2节径向基神经网络学习方法, 本研究引入单调约束的先验知识, 提出单调RBF神经网络训练新的优化目标函数, 从而得到具体的单调RBF神经网络学习算法。

2.1 单调RBF神经网络模型构建

(1) 优化目标函数的构建

对于径向基神经网络, 由1.2节可知其决策函数为y(x)= sign[pgTxg]。如果数据集是单调的, 那么单调性可以被表示为下面的不等式:

$ \mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{\underline x}} _g} \le \mathit{\boldsymbol{p}}_g^{\rm{T}}{{\mathit{\boldsymbol{\bar x}}}_g},\;\;\;\;\;\forall {\mathit{\boldsymbol{\underline x}} _g} \le {{\mathit{\boldsymbol{\bar x}}}_g}。$ (6)

给定一组虚拟的例子或者观察数据点对, 可以得到基于上述不等式的单调约束。为了表示方便, 将这组观察到的单调约束表示为

$ \mathit{\Lambda } = \left\{ {\left( {{{\mathit{\boldsymbol{\underline x}} }_i},{{\mathit{\boldsymbol{\bar x}}}_i}} \right)\left| {\forall {{\mathit{\boldsymbol{\underline x}} }_i}} \right.,{{\mathit{\boldsymbol{\bar x}}}_i},\mathit{\boldsymbol{i}} = 1, \cdots ,\mathit{\boldsymbol{M}}} \right\}, $ (7)

式中每对(xi, xi)代表相应的约束pgTxgpgTxg

增加单调约束关系到RBF神经网络中, 可以构建如下的单调RBF神经网络模型

$ \begin{array}{l} \mathop {\min }\limits_{{p_g}} \;\;\;\;\frac{1}{2}\left( {\mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{p}}_g}} \right) + \frac{1}{{\tau N}}\sum\limits_{i = 1}^N {{\xi _i}} - \frac{1}{\tau }\varepsilon \\ {\rm{s}}.{\rm{t}}.\;\;{y_i}.\left( {\mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{x}}_{gi}}} \right) > \varepsilon - {\xi _i},\\ \;\;\;\;\;{\xi _i} > 0,\varepsilon > 0,i = 1, \cdots ,N,\\ \;\;\;\;\;\mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{\underline x}} _{gi}} \le \mathit{\boldsymbol{p}}_g^{\rm{T}}{{\mathit{\boldsymbol{\bar x}}}_{gi}},\forall {\mathit{\boldsymbol{\underline x}} _i} \le {{\mathit{\boldsymbol{\bar x}}}_i},\;\;i = 1, \cdots ,M。\end{array} $ (8)

(2) 优化求解

基于优化理论, 式(8)的拉格朗日函数可表示为

$ \begin{array}{l} L\left( {{\mathit{\boldsymbol{p}}_g},{\xi _i},\varepsilon ,\lambda ,\phi ,\delta ,\alpha } \right) = \frac{1}{2}\left( {\mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{p}}_g}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\;\frac{1}{{N\tau }}\sum\limits_{i = 1}^N {{\xi _i} - \frac{1}{\tau }\varepsilon } + \sum\limits_{i = 1}^N {{\lambda _i}\left( {\varepsilon - {\xi _i} - {y_i}\left( {\mathit{\boldsymbol{p}}_g^{\rm{T}}{\mathit{\boldsymbol{x}}_{gi}}} \right)} \right)} - \\ \;\;\;\;\;\;\;\;\;\;\;\sum\limits_{i = 1}^N {{\phi _i}{\xi _i} - \delta \varepsilon } + \sum\limits_{i = 1}^N {{\alpha _i}\left( {\mathit{\boldsymbol{p}}_g^{\rm{T}}{{\mathit{\boldsymbol{\underline x}} }_{gi}} - \mathit{\boldsymbol{p}}_g^{\rm{T}}{{\mathit{\boldsymbol{\bar x}}}_{gi}}} \right)} 。\end{array} $ (9)

通过拉格朗日函数对pg, ξi, ε取极值, 得到

$ \left\{ \begin{array}{l} \frac{{\partial L}}{{\partial {\mathit{\boldsymbol{p}}_g}}} = 0 \to {\mathit{\boldsymbol{p}}_g} = \sum\limits_{i = 1}^N {{\lambda _i}{y_i}{\mathit{\boldsymbol{x}}_{gi}}} - \sum\limits_{i = 1}^N {{\alpha _i}\left( {{{\mathit{\boldsymbol{\underline x}} }_{gi}} - {{\mathit{\boldsymbol{\bar x}}}_{gi}}} \right)} \\ \frac{{\partial L}}{{\partial \xi }} = 0 \to {\lambda _i} = \frac{1}{{N\tau }} - {\phi _i}\\ \frac{{\partial L}}{{\partial \varepsilon }} = 0 \to \delta = \sum\limits_{i = 1}^N {{\lambda _i}} - \frac{1}{\tau } \end{array} \right.。$ (10)

将式(10)带入到(9)中, 就可得到原问题的对偶问题:

$ \begin{array}{l} \mathop {\max }\limits_{\lambda ,\alpha } : - \frac{1}{2}\sum\limits_{k = 1}^N {\sum\limits_{l = 1}^N {{\lambda _k}{\lambda _l}{y_k}{y_l}\mathit{\boldsymbol{x}}_{gk}^{\rm{T}}{\mathit{\boldsymbol{x}}_{gl}}} } - \\ \;\;\;\;\;\;\;\;\frac{1}{2}\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^M {{\alpha _i}{\alpha _j}{{\left( {{{\mathit{\boldsymbol{\underline x}} }_{gi}} - {{\mathit{\boldsymbol{\bar x}}}_{gi}}} \right)}^{\rm{T}}}\left( {{{\mathit{\boldsymbol{\underline x}} }_{gj}} - {{\mathit{\boldsymbol{\bar x}}}_{gj}}} \right)} } - \\ \;\;\;\;\;\;\;\;\frac{1}{2}\sum\limits_{k = 1}^N {\sum\limits_{i = 1}^M {{\lambda _k}{y_k}{\alpha _i}{{\left( {{{\mathit{\boldsymbol{\bar x}} }_{gi}} - {{\mathit{\boldsymbol{\underline x}}}_{gi}}} \right)}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{gk}}} } - \\ \;\;\;\;\;\;\;\;\frac{1}{2}\sum\limits_{k = 1}^N {\sum\limits_{i = 1}^M {{\lambda _k}{y_k}{\alpha _i}\mathit{\boldsymbol{x}}_{gk}^{\rm{T}}{{\left( {{{\mathit{\boldsymbol{\bar x}}}_{gi}} - {{\mathit{\boldsymbol{\underline x}} }_{gi}}} \right)}}} } \\ {\rm{s}}.{\rm{t}}.\;\;\lambda \in \left[ {0,\frac{1}{{N\tau }}} \right],\\ \;\;\;\;\;\;\sum\limits_{i = 1}^N {{\lambda _i}} \ge \frac{1}{\tau },\\ \;\;\;\;\;\;{\alpha _i} \ge 0\forall i = 1, \cdots ,M。\end{array} $ (11)

由于λi$\left[{0, \frac{1}{{N\tau }}} \right]$, 约束$\sum\limits_{i = 1}^N {{\lambda _i} \ge \frac{1}{\tau }} $可以简化为$\sum\limits_{i = 1}^N {{\lambda _i} = \frac{1}{\tau }} $

通过求解对偶问题的最优解λ*α*, 根据式(10)即可得原问题的最优解Pg

(3) Tikhonov正则化项

式(11)可表示成如下的矩阵形式

$ \begin{array}{l} \mathop {\max }\limits_{\lambda ,\alpha } : - \frac{1}{2}\left[ {{\mathit{\boldsymbol{\lambda }}^{\rm{T}}},{\mathit{\boldsymbol{\alpha }}^{\rm{T}}}} \right]\mathit{\boldsymbol{G}}\left[ {\begin{array}{*{20}{c}} \lambda \\ \alpha \end{array}} \right]\\ {\rm{s}}.{\rm{t}}.\;\;\lambda \in \left[ {0,\frac{1}{{N\tau }}} \right],\\ \;\;\;\;\;\;\sum\limits_{i = 1}^N {{\lambda _i}} = \frac{1}{\tau },\\ \;\;\;\;\;\;{\alpha _i} \ge 0\;\;\;\;\forall i = 1, \cdots ,M, \end{array} $ (12)

其中, $\mathit{\boldsymbol{G = }}\left[{\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{G}}^{11}}}&{{\mathit{\boldsymbol{G}}^{12}}}\\ {{\mathit{\boldsymbol{G}}^{21}}}&{{\mathit{\boldsymbol{G}}^{22}}} \end{array}} \right]$为Hessian矩阵, 并且四个子矩阵分别为

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{G}}_{k,l}^{11} = {y_k}{y_l}\mathit{\boldsymbol{x}}_{gk}^{\rm{T}}{\mathit{\boldsymbol{x}}_{gl}}\\ \;\;\;k,l = 1,2, \cdots ,N\\ \mathit{\boldsymbol{G}}_{k,i}^{12} = {y_k}\left( {{{\mathit{\boldsymbol{\bar x}}}_{gi}} - {{\mathit{\boldsymbol{\underline x}} }_{gi}}} \right)\\ \;\;\;k = 1,2, \cdots ,N\\ \;\;\;i = 1,2, \cdots ,M\\ {\mathit{\boldsymbol{G}}^{21}} = {\left( {{\mathit{\boldsymbol{G}}^{12}}} \right)^{\rm{T}}}\\ \mathit{\boldsymbol{G}}_{i,j}^{22} = {\left( {{{\mathit{\boldsymbol{\bar x}}}_{gi}} - {{\mathit{\boldsymbol{\underline x}} }_{gi}}} \right)^{\rm{T}}}\left( {{{\mathit{\boldsymbol{\bar x}}}_{gi}} - {{\mathit{\boldsymbol{\underline x}} }_{gi}}} \right)\\ \;\;\;\;i,j = 1, \cdots ,M \end{array} \right.。$ (13)

如果G矩阵是半正定的, 优化目标具全局最优解。如果是正定的, 那么最优解是唯一的全局最优解。

为了避免问题求解时出现欠正定情况, 可在目标函数中引入Tikhonov正则化项, 此时优化目标函数可修正为

$ \begin{array}{l} \mathop {\max }\limits_{\lambda ,\alpha } : - \frac{1}{2}\left[ {{\mathit{\boldsymbol{\lambda }}^{\rm{T}}},{\mathit{\boldsymbol{\alpha }}^{\rm{T}}}} \right]\left( {\mathit{\boldsymbol{G}} + \delta \mathit{\boldsymbol{I}}} \right)\left[ {\begin{array}{*{20}{c}} \lambda \\ \alpha \end{array}} \right]\\ {\rm{s}}.{\rm{t}}.\;\;\lambda \in \left[ {0,\frac{1}{{N\tau }}} \right],\\ \;\;\;\;\;\;\sum\limits_{i = 1}^N {{\lambda _i}} = \frac{1}{\tau },\\ \;\;\;\;\;\;{\alpha _i} \ge 0\;\;\;\;\forall i = 1, \cdots ,M, \end{array} $ (14)

式中: I是单位矩阵。如果δ选取合适的话, 那么式(14)中的二次规划问题将是一个凸二次规划问题并且具有全局最优解。通过使用不同的数据集对式(13)的单调RBF神经网络模型进行验证, 结果表明, 二次规划问题可能是一个不适定问题, 此时矩阵G包含一个非常小的负特征值。针对此, 本研究将惩罚项δ设置成G的最小负特征值的绝对值的两倍。按此方法, 式(14)中的二次规划问题将能保证是正定的。

2.2 单调约束构建

对于任意的输入向量对x1x2, 要使其满足单调性, 那么相应的预测类别y1y2应满足条件y1y2。本研究对x进行了相应的处理使其转化为xg, 再让它满足约束pgTxg1pgTxg2。但是如何确定一组单调约束对并实现一般的单调性仍然是一个开放的问题。文献[21]中通过训练数据中连续的点对形成序回归问题的约束。

本研究采用了一个比较直观的方法用来构建单调约束对。对于数据$\mathfrak{I}$={(xk, yk)|k=1, 2, …, N}平均划分每个属性的范围, 然后通过网格算法确定约束对的个数。算法步骤如下:

步骤1  计算z = (z1, z2, …, zn)和z= (z1, z2, …, zn), 其中zl=max xk, l, zl=min xk, l, l=1, 2, …, n

步骤2  对每个区间[zl, zl], l=1, 2, …, n进行等间隔划分, 即zl=tl, 0, …, tl, i, …, tl, M=zl. l=1, …, n

步骤3  定义xi=(xi, 1, xi, 2, …, xi, n), xi=(xi, 1, xi, 2, …, xi, n), 其中xil=tl, i-1, xil=tl, i, i=1, …, M, l=1, …, nM为约束对的个数。

步骤4  构建单调约束不等式pgTxgipgTxgi

2.3 单调RBF神经网络学习算法

基于上文所提出的单调RBF神经网络学习算法的原理与模型的构造过程, 下面给出其详细的算法描述。

算法  单调RBF神经网络学习算法

阶段1:数据处理阶段

步骤1:设置神经网络的个数M, 惩罚项系数τ以及人工调节的标量参数h; 选取用于单调分类场景的数据集。

阶段2:构建单调RBF神经网络模型

步骤2:设置单调约束对的个数Ms; 构建1.2节介绍的RBF神经网络模型, 利用交叉验证法得到当前模型的测试数据集。

步骤3:在RBF神经网络模型上添加单调约束, 构建式(8)所示的单调RBF神经网络模型的目标函数。

步骤4:对式(8)所示的目标函数进行优化求解得到原问题的对偶问题。

步骤5:在优化后的目标函数中引入Tikhonov正则化项, 将目标函数修正为式(14)得到单调分类的RBF神经网络模型。

3 试验设计与结果 3.1 试验设计

为了确保试验的公正性, 本研究所有试验的试验环境为:MATLAB编程环境, 电脑配置为:windows系统, 3.30 GHz的Intel(R) Core(TM) i5-4590 CPU, 16 GB内存。

3.1.1 试验数据集

试验选取了UCI数据库中具有一定单调性的10个真实数据集, 数据集的细节被概括在表 1中。

表 1 数据集描述 Table 1 Description of the datasets
3.1.2 参数设计

本研究算法所涉及的参数会影响模型的性能。针对此本研究对于惩罚项系数τ与人工调节的标量h等参数, 采用了网格搜索和交叉验证结合的方法进行寻优。过程如下:首先对于每个待优化的参数, 给定一个寻优范围(具体范围见表 2), 然后利用交叉验证的方式计算特定参数下所训练模型的性能, 最终把取得最优性能的参数作为最终的参数。特别地, 为了便于找到较优的参数, 表 2在一个较大的范围内设置了参数寻优范围。本研究试验中采用了5倍交叉验证法, 即把数据集划分为5份, 每次选取1份数据作为测试集, 其余4份作为训练集。对于本研究试验所采用的比较算法和所涉及的相应超参数的搜索网格如表 2所示。

表 2 算法中参数的设置 Table 2 Algorithms and hyper-parameter settings
3.2 试验结果与分析

本研究采取的对比算法有第1节中介绍的基于模糊C均值的径向基函数(fuzzy c-means radial basis function, FCM-RBF)神经网络算法和Matlab工具箱中精确的RBF神经网络(简称Newrbe-RBF)以及文献[5]中介绍的单调算法(regularized monotonic fuzzy support vector mchine, RMC-FSVM)。各个算法的分类精度如表 3所示。

表 3 四种分类器在不同的数据集上的分类精度对比 Table 3 Comparison of the classification accuracy of different datasets in the four classifiers

本研究的方法与其他RBF算法以及单调算法相比较的试验结果如表 3所示。从表 3中可以看出:

(1) 本次试验选取了7个单调数据集, 均在本研究提出的算法中获得最优的分类性能, 在其他单调方法中获得较好的分类性能, 并且几个数据集均有较好的稳定性。

(2) 对于不同的单调数据集对, RBF神经网络模型添加了单调约束后其分类性能要明显优于没有添加单调性约束的模型。其他单调模型RMC-FSVM也优于本研究应用的非单调模型, 但是仍然次于本研究的提出的改进算法MC-RBF。同时, 由于不同的分类方法对于不同的数据集有不同的最优模型, 所以对模型准确率的评估在有些数据集上相差很大, 在有些数据集上相差不大。

(3) 对于同一个数据集, 单调RBF神经网络模型得到的准确率要明显高于一般的RBF神经网络模型。例如, 对于数据集Hepatitis, 在MC-RBF的准确率比Matlab工具箱中精确的RBF神经网络高达10%, 提升非常明显。相对于其他几个算法也同样获得较好的准确率。

综上所述, 在处理单调分类问题时, 考虑数据中类和属性之间的单调关系可以有效提高分类器在单调数据集上的分类性能。

4 结语

本研究提出了一个单调RBF神经网络模型用于单调分类场景, 通过在经典的RBF神经网络模型上添加关于单调约束的先验知识并以基于训练数据的偏序的不等式形式表示出来, 然后引入了Tikhonov正则化方法来确保模型参数解的唯一性与有界性。将改模型应用到8个单调数据集中, 结果表明在单调分类问题中, 本研究提出的方法优于经典的RBF神经网络模型以及Matlab工具箱中的RBF神经网络。

本研究所构建的单调约束对是通过输入数据集中一些随机选取的子集中的最小值与最大值来确定的, 它的缺点是不能完全反应整体的单调性。使用一个更系统的方法来构造单调约束将是以后展开的工作。另外, 在实践中, 数据采集过程很容易收到不同干扰, 因此, 数据可能不完全遵循先验知识的特点, 比如本研究的单调性。后面还可以拟研究数据违反单调性是如何影响学习过程的, 通过添加不同水平的噪声来模拟不同程度的违反单调性的情况。

参考文献
[1] 罗小波, 王云安, 肖春宝, 等. RBF神经网络在遥感影像分类中的应用研究[J]. 遥感技术与应用, 2004, 16(2): 119-123
LUO Xiaobo, WANG Yunan, XIAO Chunbao, et al. The application of RBF neural network in remote sensing image classification[J]. Remote Sensing Technology and Application, 2004, 16(2): 119-123
[2] 那文波, 何宁, 刘巍, 等. 基于遗传算法优化的RBF神经网络的压力传感器故障诊断[J]. 煤矿机械, 2016(7): 180-183
NA Wenbo, HE Ning, LIU Wei, et al. Fault diagnosis of pressure sensor based on RBF neural network optimized by genetic algorithm[J]. Coal Mine Machinery, 2016(7): 180-183
[3] BEN-David A, STERLING L, PAO Y H. Learning and classification of monotonic ordinal concepts[J]. Computational Intelligence, 1989, 5(1): 45-49
[4] BEN-DAVID A. Monotonicity maintenance in information-theoretic machine learning algorithms[J]. Machine Learning, 1995, 19(1): 29-43
[5] LI S T, CHEN C C. A regularized monotonic fuzzy support vector machine model for data mining with prior knowledge[J]. IEEE Transactions on Fuzzy Systems, 2015, 23(5): 1713-1727 DOI:10.1109/TFUZZ.2014.2374214
[6] MAES C M. A regularized active-set method for sparse convex quadratic programming[D]. Palo Alto, USA: Stanford University, 2010.
[7] VAUHKONEN M, VADASZ D, KARJALAINEN P A, et al. Tikhonov regularization and prior information in electrical impedance tomography[J]. IEEE Transactions on Medical Imaging, 1998, 17(2): 285-293 DOI:10.1109/42.700740
[8] TIKHONOV A N, ARSENIN V Y. Solutions of Ill-posed problems[J]. Mathematics of Computation, 1977, 32(144): 491-491
[9] ABU-MOSTAFA Y S. Hints[J]. Neural Computation, 1995, 7(4): 639-671 DOI:10.1162/neco.1995.7.4.639
[10] ABU-MOSTAFA Y S. Learning from hints[J]. Complexity, 1994, 10: 165-178 DOI:10.1006/jcom.1994.1007
[11] WISMER D, CHATTERGY R. Introduction to nonlinear optimization[M]. Amsterdam, Netherland: North Holland, 1978: 227-313.
[12] WANG J J, ZHANG C F, JING Y Y. Self-adaptive RBF neural network PID control in exhaust temperature of micro gas turbine[C]//International Conference on Machine Learning and Cybernetics. Kunming: IEEE, 2008: 2131-2136.
[13] 黄涛. 基于RBF神经网络的非线性回归模型[EB/OL]. (2011-3-29)[2017-3-18]. http://www.paper.edu.cn.
HUANG Tao. An nonlinear regression model based on RBF neural network[EB/OL]. (2011-3-29)[2017-3-18]. http://www.paper.edu.cn.
[14] 田俊峰, 张晶, 毕志明. 基于改进的RBF神经网络的入侵检测研究[J]. 计算机工程与应用, 2008, 44(31): 135-138
TIAN Junfeng, ZHANG Jing, BI Zhiming. Research of intrusion detection based on improved RBF neural network[J]. Computer Engineering and Applications, 2008, 44(31): 135-138 DOI:10.3778/j.issn.1002-8331.2008.31.039
[15] NIROS A D, TSEKOURAS G E, TSOLAKIS D, et al. Hierarchical fuzzy clustering in conjunction with particle swarm optimization to efficiently design RBF neural networks[J]. Journal of Intelligent & Robotic Systems, 2015, 78(1): 105-125
[16] NIROS A D, TSEKOURAS G E. A novel training algorithm for RBF neural network using a hybrid fuzzy clustering approach[J]. Fuzzy Sets and Systems, 2012, 193: 62-84 DOI:10.1016/j.fss.2011.08.011
[17] YUN Z, QUAN Z, CAIXIN S, et al. RBF neural network and ANFIS-based short-term load forecasting approach in real-time price environment[J]. IEEE Transactions on Power Systems, 2008, 23(3): 853-858 DOI:10.1109/TPWRS.2008.922249
[18] 唐启义, 冯明光. DPS数据处理系统:实验设计、统计分析及模型优化[M]. 北京: 科学出版社, 2006.
TANG Qiyi, FENG Mingguang. DPS data processing system: experimental design: Statistical Analysis and Modeling[M]. Beijing: Science Press, 2006.
[19] LI Y, QIANG S, ZHUANG X, et al. Robust and adaptive backstepping control for nonlinear systems using RBF neural networks[J]. IEEE Transactions on Neural Networks, 2004, 15(3): 693-701 DOI:10.1109/TNN.2004.826215
[20] LIN C L, WANG J F, CHEN C Y, et al. Improving the generalization performance of RBF neural networks using a linear regression technique[J]. Expert Systems with Applications, 2009, 36(10): 12049-12053 DOI:10.1016/j.eswa.2009.03.012
[21] BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining & Knowledge Discovery, 1998, 2(2): 121-167