文章快速检索     高级检索
  山东大学学报(工学版)  2018, Vol. 48 Issue (3): 10-16  DOI: 10.6040/j.issn.1672-3961.0.2017.405
0

引用本文 

叶明全, 高凌云, 万春圆. 基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版), 2018, 48(3): 10-16. DOI: 10.6040/j.issn.1672-3961.0.2017.405.
YE Mingquan, GAO Lingyun, WAN Chunyuan. Gene expression data classification based on artificial bee colony and SVM[J]. Journal of Shandong University (Engineering Science), 2018, 48(3): 10-16. DOI: 10.6040/j.issn.1672-3961.0.2017.405.

基金项目

国家自然科学基金资助项目(61672386);安徽省自然科学基金资助项目(1708085MF142);教育部人文社会科学研究规划基金资助项目(16YJAZH071);安徽高校省级自然科学研究重点基金资助项目(KJ2014A266)

作者简介

叶明全(1973—), 男, 安徽当涂人, 教授, 博士, 主要研究方向为数据挖掘与机器学习、生物医学信息学和健康医疗大数据等. E-mail:ymq@wnmc.edu.cn

文章历史

收稿日期:2017-05-09
网络出版时间:2018-03-08 11:19:39
基于人工蜂群和SVM的基因表达数据分类
叶明全, 高凌云, 万春圆     
皖南医学院健康大数据挖掘与应用研究中心,安徽 芜湖 241002
摘要:基因表达数据存在高维、小样本、高噪声等特性, 使得相应的肿瘤分类诊断面临着一定的挑战。为了实现更加精确的分类准确率, 利用人工蜂群(artificial bee colony, ABC)算法对支持向量机(support vector machine, SVM)的核函数参数和惩罚因子进行优化, 采用准确率作为分类模型的适应度函数, 提出一种基于ABC和SVM的基因表达数据分类方法ABC-SVM。在6种公开的肿瘤基因表达数据集上进行试验, 并对比分析其他的分类方法。结果表明, 在筛选得到的较少信息基因基础上, ABC-SVM可获得更高的肿瘤分类准确率, 对肿瘤样本类型进行更有效的分类预测。
关键词人工蜂群    支持向量机    基因表达数据    智能优化    肿瘤分类    生物信息学    
Gene expression data classification based on artificial bee colony and SVM
YE Mingquan, GAO Lingyun, WAN Chunyuan     
Research Center of Health Big Data Mining and Applications, Wannan Medical College, Wuhu 241002, Anhui, China
Abstract: The characteristics of high dimension, small sample and high noise for gene expression data raised many challenges in tumor diagnosis. In order to classify tumor gene expression data more accurately, the kernel function parameters and penalty factors of SVM (support vector machine) were optimized by ABC (artificial bee colony) algorithm, in which classification accuracy was used as the fitness function. A new gene expression data classification method based on ABC algorithm and SVM, which named ABC-SVM, was proposed. Experiments were conducted on six public tumor gene expression datasets, and other classicfication methods were compared. The results showed that ABC-SVM, a method based on fewer informative genes, could obtain higher classification accuracy, and the classification of tumor samples could be more effectively predicted.
Key words: artificial bee colony    support vector machine    gene expression data    intelligent optimization    tumor classification    bioinformatics    
0 引言

不同类型的肿瘤具有不同的病理基础和治疗方案[1], 生物信息学领域的应用之一是通过分析挖掘各种生物组学数据, 实现快速有效的肿瘤类型判定, 找到针对性的诊断方法[2]。原始肿瘤基因表达数据维度高、样本小, 数据中含有大量的噪声, 使得分析处理工作面临着很大的困难。为了实现肿瘤样本的精确分类, 目前已提出各种方法筛选出对分类重要的信息基因[3]并不断改进肿瘤分类算法[4-8]。文献[8]最早利用加权投票法对白血病的2种已知亚型进行分类。其他分类方法如极限学习机[2]、自适应K-近邻分类器[4]、人工神经网络[9]、支持向量机(support vector machine, SVM)[10]等, 都在肿瘤分类研究中有广泛应用。其中, 文献[10]详细分析了基因表达数据特征选择技术, 以及采用SVM分类肿瘤数据的优势。现有机器学习方法大多基于传统统计学理论, 而SVM以结构风险最小化代替传统经验风险最小化, 兼顾训练误差和测试误差最小化, 尤其适用于解决基因表达数据的高维小样本、非线性等问题[10-11]。另外, SVM参数选择对模型的分类性能有重要的影响, 因此选择合适参数是提高肿瘤分类精度的关键[12-17]。文献[13]采用遗传算法(genetic algorithm, GA)优化SVM参数, 结果证明该方法优于网格搜索方法, 能显著提高模型的分类精度。SVM参数的智能优化方法还包括蚁群优化(ant colony optimization, ACO)[14]、粒子群优化(particle swarm optimization, PSO)[15-16]和果蝇优化(fruit fly optimization algorithm, FOA)[17]等。由于分类准确率与相关参数的复杂多峰值关系, 上述优化方法在寻优过程中会不同程度地陷入局部最小而不能找到全局最优值。文献[18-19]系统地提出人工蜂群(artificial bee colony, ABC)算法, 并将其成功应用于函数的极值优化、多目标优化等问题。文献[20]使用改进的ABC算法iABC求解连续优化问题。文献[21]提出一种改进的ABC算法MABC求解经济调度优化问题。ABC算法应用范围广泛, 研究者针对基本算法存在不足, 从参数调整、混合算法以及设计新的学习策略等不同角度进行改进[22-24]。另外, ABC算法全局优化性能较好, 可以跳出局部最优获得全局最优解, 从而具有潜在优势获得SVM最优参数。因此, 本研究采用ABC算法优化SVM的分类方法, 对经过特征选择后的肿瘤信息基因进行分类, 并在不同的肿瘤基因表达数据上进行试验, 结果表明本研究方法对肿瘤基因表达数据的分类效果更好。

1 人工蜂群优化支持向量机 1.1 SVM原理

SVM在处理非线性样本时, 利用核函数将原始数据映射到高维空间使样本变为线性可分, 构造出最优分类超平面将样本正确分开[25]。若给定两类别的肿瘤样本, 形式为S={(xi, yi)|xiRD, yi∈{-1, 1}, i=1, …, N}。其中, xi表示样本, yi表示对应的类别。以最大化两类别的分类间隔为目标[26]的超平面可表示为

$ \mathit{\boldsymbol{\omega }}x + b = 0, $ (1)

式中: ω为超平面法向量, b为阈值。引入错误代价系数C和松弛变量ξ, 将超平面转化为最小化函数公式

$ \begin{array}{l} \;\;f = \frac{1}{2}{\left\| \mathit{\boldsymbol{\omega }} \right\|^2} + C\sum\limits_{i = 1}^N {{\xi _i}} , \\ {\rm{s}}{\rm{.t}}{\rm{.}}\left\{ \begin{array}{l} {y_i}\left( {{\mathit{\boldsymbol{\omega }}^{\rm{T}}}\varphi \left( {{\mathit{\boldsymbol{x}}_i}} \right) + b} \right) \ge 1 + {\xi _i}\\ {\xi _i} \ge 0 \end{array} \right., \end{array} $ (2)

式中:特征映射ψ(x)为满足Mercer条件的核函数。引入Lagrange函数, 将二次规划问题转化为相应的对偶问题, 通过求解该对偶问题得到最优解a*b*。最终决策函数可表示为

$ h\left( x \right) = {\mathop{\rm sgn}} \left( {\sum\limits_{i = 1}^{sv} {a_i^*{y_i}K\left( {x, {x_i}} \right) + {b^*}} } \right)。$ (3)

核函数和参数设定对SVM的性能有很大影响。其中径向基核函数(radial basis function, RBF)参数较少, 能处理非线性可分问题, 适用范围较广[27]。RBF核函数公式表示为

$ K\left( {x, {x_i}} \right) = \exp \left( { - \frac{{{{\left\| {x - {x_i}} \right\|}^2}}}{{2{\sigma ^2}}}} \right)。$ (4)

由式(4)可知, 该核函数主要受核参数σ影响, 而采用RBF核的SVM通过参数Cσ的寻优, 能实现更加精确的分类效果。

1.2 人工蜂群算法原理

ABC算法模拟蜜蜂分工合作模式, 通过个体间信息的交流共享找到问题的最优解。ABC算法中涉及蜜源、引领蜂、跟随蜂和侦查蜂等4个组成要素[23]。其中:蜜源位置表示所求优化问题的可行解; 蜜源丰富程度表示可行解的质量, 即解的适应度; 引领蜂储存蜜源的有关信息, 和蜜源数量一一对应; 跟随蜂通过分享引领蜂的蜜源信息选择蜜源; 侦查蜂在解空间内随机搜索新的蜜源。

ABC算法在D维解空间(d=1, 2, …, D)中初始化N个可行解蜜源Xi(i=1, 2, …, N)。生成初始解要考虑搜索效率和解的质量问题:一方面要使解尽可能地分散到解空间中; 另一方面产生初始解的工作量不宜太大, 通常随机产生。

产生初始解的公式可定义为

$ {X_i} = {L_{\rm{d}}} + {\rm{rand}}\left( {0, 1} \right)\left( {{U_{\rm{d}}} - {L_{\rm{d}}}} \right), $ (5)

式中: Ld表示搜索空间的下限, Ud表示搜索空间的上限。

每个初始解蜜源吸引一个引领蜂, 引领蜂所在位置即为蜜源位置。引领蜂在舞蹈区将蜜源信息与跟随蜂共享, 蜜源适应度越高, 跟随蜂被吸引来越多, 该蜜源被选择的概率越大。通过这种一对多方式的信息交换, 可以搜索到更广阔的解空间, 促使种群向全局最优解逼近。

跟随蜂依概率选择蜜源

$ {P_i} = \frac{{{F_i}}}{{\sum\limits_{j = 1}^N {{F_j}} }}, $ (6)

式中: Pi代表第i个蜜源被选择的概率, Fi为第i个蜜源的适应度(fitness)。适应度是蜂群算法寻优的目标, 直接影响算法收敛速度及能否找到最优解。

每个跟随蜂到达蜜源后, 需要对该蜜源做一次邻域搜索:

$ {V_i} = {X_i} + r * \left( {{X_i} - {X_k}} \right), $ (7)

式中:Vi代表新产生的第i个蜜源位置; r为[-1, 1]范围内随机数; k代表随机指定个体, k ∈{1, 2, …, N}且ki。如果搜索结果比原来蜜源好, 则新位置作为新蜜源, 否则继续开采原蜜源。随着对最优解的逼近, 搜索步长会自适应地缩减。

同一蜜源被多次采集后, 其丰富程度会降低。算法中规定蜜源最大采集次数为limit, 当引领蜂搜索找到蜜源质量经过指定limit次搜索, 但仍未有改善时放弃现有蜜源, 并转变为侦查蜂在蜂巢附近继续寻找新蜜源。

新蜜源即新随机解产生, 可以提高解的质量, 并增加解的多样性, 产生新解的公式可定义为:

$ {X_i} = {X_{\min }} + {\rm{rand}}\left( {0, 1} \right)\left( {{X_{\max }} - {X_{\min }}} \right)。$ (8)
1.3 ABC-SVM算法实现

本研究采用RBF核函数, 相应SVM需要优化的参数包括惩罚参数C、函数宽度σ。由于基因表达数据集样本量不大, 采用交叉验证的方式评价模型, 交叉验证后的平均分类准确率Vacc越高, 说明该个体对应的SVM性能越好, 个体适应度越好。

为使分类结果达到最优值, 适应度函数定义为

$ F{\rm{ = }}{V_{{\rm{acc}}}}。$ (9)

本研究提出的ABC-SVM算法是以搜索SVM分类准确率的全局最优为目标, 确定SVM的参数值, 从而确定SVM分类模型。该算法的步骤描述如下:

(1) 根据式(5)随机产生初始解, 初始化各参数。相关参数包括蜜源数量N、解的最大采集次数limit、算法最大迭代次数maxcycle、适应度函数fitness等。蜂群算法参数的设置与问题本身的性质有很大关系。

(2) 在蜜源附近, 引领蜂按照式(7)产生新蜜源Vi进行邻域搜索。

(3) 根据式(9)评价相应蜜源适应度fitness, 并以贪婪选择方式确定较优蜜源;

(4) 根据式(6)计算蜜源被选择概率Pi。跟随蜂采用与引领蜂相同的方式进行搜索, 以贪婪选择方式确定较优蜜源;

(5) 判断蜜源是否满足放弃的条件, 如果满足limit次数条件, 搜索结果未改善时, 对应引领蜂身份转换为侦查蜂, 否则转到步骤(7);

(6) 侦查蜂根据式(8)产生新蜜源重新搜索;

(7) 判断算法是否满足终止条件, 若满足迭代次数cycle<maxcycle, 则返回步骤(2);否则, 输出最优解, 算法终止。

2 试验与结果分析

肿瘤基因表达数据存在维数高、样本少、噪声大以及冗余多等特点, 通过试验测定的大量基因表达值, 数据之间具有复杂关系, 并且对肿瘤分类有重要意义的特征相对较少[28]。因此, 与传统分类问题相比, 采用基因表达数据对肿瘤进行分类更加困难。

标准化基因表达数据, 统一量纲, 可以使数据分析更加准确。另外, 在分类肿瘤样本之前进行特征(基因)筛选可以更高效和快速地鉴别肿瘤类型。肿瘤基因表达数据中包含不相关特征、弱相关冗余特征、弱相关非冗余特征以及强相关特征[29], 特征选择以获得强相关和弱相关非冗余特征为目标, 不同的特征选择方法具有不同的效果。本研究在肿瘤样本分类之前采用基于相关性的快速过滤(fast correlation-based filter, FCBF)算法[29]选择特征, 该算法综合考虑特征的相关性和冗余性, 可以实现更佳的分类效果。

2.1 试验数据及环境

本研究采用的试验数据均为两类别肿瘤基因表达数据集, 包括中枢神经系统的胚胎性肿瘤(Central nervous)、结肠癌(Colon cancer)、肺癌(Lung cancer)、白血病(Leukemia)、弥漫性大B细胞淋巴瘤(DLBCL)和前列腺癌(Prostate cancer)。这6个数据集的网上公开下载地址为http://datam.i2r.a-star.edu.sg/datasets/krbd/。数据集的详细描述见表 1

表 1 试验数据集描述 Table 1 Description of experimental datasets

表 1中:Central nervous数据集记录患者的愈后情况, 包括在治疗后未复发的21例患者, 以及在治疗后复发的39例患者; Colon数据集包含22例正常(标记为Positive)样本和40例结肠癌(标记为Negative)样本; Lung数据集来源于密歇根大学, 包括10例正常(Normal)、86例肺癌(Tumor)样本; Leukemia数据集包括急性淋巴白血病(ALL)和急性髓性白血病(AML)2种类型; DLBCL数据集来源于斯坦福大学, 包括Germinal centre B-like和Activated B-like亚型; Prostate数据集包括50例正常(Normal)、52例前列腺癌(Tumor)样本。

本试验采用的PC机试验环境为Intel Pentium双核处理器、4GB内存、Windows 7操作系统和Weka 3.8+Matlab 2012a。其中, Weka实现肿瘤基因表达数据的特征选择和部分分类操作; Matlab实现ABC-SVM算法对肿瘤数据集进行分类; 模型性能评价采用10折交叉验证方式。试验中重要参数设置分别为:SVM应用RBF核参数; KNN以及LIBSVM分类器均采用Weka上默认参数。GA的交叉概率设置为0.8, 变异概率设置为0.01。ABC算法需要慎重选择参数值, 本研究采用蜂群规模为20, 蜜源个数为蜂群规模一半, 最大迭代次数设置为100。

2.2 试验结果讨论

FCBF特征选择算法基于对称不确定性度量特征重要程度[30], 在标准化后的数据集上获得的特征数见表 2。考虑到肿瘤数据集中只有很少的信息基因, 表中对比列出了数据集的原始特征数目。可以看到, lung数据集原始特征有7 129个, 经过选择最终只得到了1个重要特征; prostate数据集原始特征有12 600个, 经过FCBF特征选择最终得到77个重要特征。特征选择能够去除基因表达数据中大量无关特征从而提高子集的分类性能, 最终应用FCBF算法在central nervous、colon、leukemia和DLBCL数据集上获得的特征属性数目分别为28、14、51和60。

表 2 FCBF算法选择的特征数目 Table 2 Numbers of selected features by FCBF algorithm

将经过选择后的特征输入4种分类模型KNN、LIBSVM、GA-SVM和ABC-SVM进行分类。KNN分类算法简单易实现, 无需训练, 但计算量较大。LIBSVM分类算法是林智仁教授团队开发的一套SVM的库[30], 运算灵活, 参数少, 应用广泛。GA-SVM分类应用GA[31]优化SVM的参数, 该算法采用启发式搜索方式, 简单易实现, 适用广泛。考虑到群智能算法陷于局部最优的可能性, 本研究使用具有全局优化性能的ABC算法优化SVM的参数分类肿瘤数据。由于输入特征的数目较少, 采用10折交叉验证评估分类性能, 试验结果见表 3, 表中粗体为肿瘤基因表达数据的最高分类准确率。

表 3 不同分类器基于FCBF算法的分类准确率 Table 3 Classification accuracies of different classifiers based on FCBF

表 3可知, 基于FCBF算法选择的6组特征子集, 采用ABC-SVM分类方法均获得最好的结果。其中, Central nervous数据集表示患者的愈后情况, 分类结果说明ABC-SVM方法对疾病分类以及愈后预测都有很好的效果。另外相较于GA-SVM, 本研究方法的精度提高了5%, 说明ABC能更好的获得全局最优值。对于lung、leukemia和DLBCL数据集, ABC-SVM皆获得了100%的分类准确率, 而lung数据集选出的特征数只有1个。针对colon和leukemia肿瘤数据集, 文献[32]分别获得89.12%和93.04%的分类准确率, 文献[33]分别获得90.46%和95.51%的准确率, 低于本研究方法得到的准确率93.55%和100%。

另外, 表 3中4种分类器在leukemia和DLBCL数据集上的运行结果相同, 所获得特征数目分别为51和60, 考虑到数据中可能存在的多特征相关, 进一步选用SVM方法过滤冗余特征来验证所提分类算法ABV-SVM的有效性。SVM属性评估属于封装式特征选择, 根据特征对分类的贡献评价该特征的重要性。由于该方法获得的是特征的排序情况, 并没有明确规定最终的特征数目, 因此本研究对比了不同数目特征的分类情况。表 4列举了在leukemia数据集51个特征基础上选择不同数目特征的分类情况。表 5表示在DLBCL数据集获得的60个特征基础上, 进一步选择不同数目特征的分类情况。其中, “No.”代表数据集最终选择的特征数目。

表 4 Leukemia数据集不同数目特征的分类精度 Table 4 Classification accuracies with different number offeatures in leukemia
表 5 DLBCL数据集不同数目特征的分类精度 Table 5 Classification accuracies with different number offeatures in DLBCL

表 45可知, 通过SVM进一步筛选特征, 分类器仍能保持很好的分类效果。对于leukemia数据集, 在获得4个特征的基础上, 本研究提出的ABC-SVM算法的分类准确率为97.22%, 高于其他3种分类方法, 当特征数目为5时, 准确率达到100%。对于DLBCL数据集, 在5个特征的基础上, ABC-SVM的分类准确率为100%, 高于KNN的97.87%, LIBSVM的95.74%和GA-SVM的97.87%。因此, 通过剔除leukemia和DLBCL数据集的冗余特征, 进一步验证采用ABC算法能够搜索到SVM参数的全局最优解, 使得ABC-SVM方法具有更好的分类效果。

3 结论

基于群智能优化算法的灵活性和稳健性, 以及SVM处理高维非线性样本的优势, 本研究选用ABC算法优化SVM相关参数, 得到分类方法ABC-SVM。在肿瘤基因表达数据集上的试验结果表明:在选择较少特征数目的基础上, ABC-SVM能够获得比KNN、LIBSVM和GA-SVM更好的分类性能, 说明在处理高维小样本数据时SVM具有一定的优势; 同时ABC能够更好地搜索到SVM参数的全局最优解, 从而改善SVM的性能, 获得更加精确的分类结果, 对肿瘤的临床预测具有一定的潜在价值。

SVM可以有效的处理二分类小样本数据, 然而针对肿瘤样本存在多类别以及多标签数据, 需要从多个方面改进以获取代价低且性能更好的模型。另外本研究对智能优化算法的改进方面存在不足, 尝试从多个方向进行整合, 结合SVM处理更加复杂的数据将是今后研究的方向。

参考文献
[1] QUACKENBUSH J. Microarray analysis and tumor classification[J]. New England Journal of Medicine, 2006, 354(23): 2463-2472 DOI:10.1056/NEJMra042342
[2] 陆慧娟, 安春霖, 马小平, 等. 基于输出不一致测度的极限学习机集成的基因表达数据分类[J]. 计算机学报, 2013, 36(2): 341-348
LU Huijuan, AN Chunlin, MA Xiaoping, et al. Disagreement measure based ensemble of extreme learning machine for gene expression data classification[J]. Chinese Journal of Computers, 2013, 36(2): 341-348
[3] 李素姝, 王士同, 李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42
LI Sushu, WANG Shitong, LI Tao. A feature selection method based on LS-SVM and fuzzy supplementary criterion[J]. Journal of Shandong University (Engineering Science), 2017, 47(3): 34-42
[4] KAR S, SHARMA K D, MAITRA M. Gene selection from microarray gene expression data for classification of cancer subgroups employing PSO and adaptive K-nearest neighborhood technique[J]. Expert Systems with Applications, 2015, 42(1): 612-627 DOI:10.1016/j.eswa.2014.08.014
[5] 谢娟英, 谢维信. 基于特征子集区分度与支持向量机的特征选择算法[J]. 计算机学报, 2014, 37(8): 1704-1718
XIE Juanying, XIE Weixin. Several feature selection algorithms based on the discernibility of a feature subset and support vector machines[J]. Chinese Journal of Computers, 2014, 37(8): 1704-1718
[6] 谢娟英, 高红超. 基于统计相关性与K-means的区分基因子集选择算法[J]. 软件学报, 2014, 25(9): 2050-2075
XIE Juanying, GAO Hongchao. Statistical correlation and K-means based distinguishable gene subset selection algorithms[J]. Journal of Software, 2014, 25(9): 2050-2075
[7] 叶明全, 高凌云, 伍长荣, 等. 基于对称不确定性和SVM递归特征消除的信息基因选择方法[J]. 模式识别与人工智能, 2017, 30(5): 429-438
YE Mingquan, GAO Lingyun, WU Changrong, et al. Informative gene selection method based on symmetric uncertainty and SVM recursive feature elimination[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(5): 429-438
[8] GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537 DOI:10.1126/science.286.5439.531
[9] KHALILI M, MAJD H A, KHODAKARIM S, et al. Prediction of the thromboembolic syndrome: an application of artificial neural networks in gene expression data analysis[J]. Journal of Paramedical Sciences, 2016, 7(2): 15-22
[10] GEORGE G V S, RAJ V C. Review on feature selection techniques and the impact of SVM for cancer classification using gene expression profile[J]. International Journal of Computer Science & Engineering Survey, 2011, 2(3): 16-27
[11] CORTES C, VAPNIK V. Support vector networks[J]. Machine Learning, 1995, 20(3): 273-297
[12] 林俊, 许露, 刘龙. 基于SVM-RFE-BPSO算法的特征选择方法[J]. 小型微型计算机系统, 2015, 36(8): 1865-1868
LIN Jun, XU Lu, LIU Long. Feature selection based on SVM-RFE and particle swarm optimization[J]. Journal of Chinese Computer Systems, 2015, 36(8): 1865-1868
[13] HUANG Chenglung, WANG Chiehjen. A GA-based feature selection and parameters optimization for support vector machines[J]. Expert Systems with Applications, 2006, 31(2): 231-240 DOI:10.1016/j.eswa.2005.09.024
[14] ZHANG Xiaoli, CHEN Xuefeng, HE Zhengjia, et al. An ACO-based algorithm for parameter optimization of support vector machines[J]. Expert Systems With Applications, 2010, 37(9): 6618-6628 DOI:10.1016/j.eswa.2010.03.067
[15] SUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in Biology & Medicine, 2013, 43(5): 576-586
[16] BAO Yukun, HU Zhongyi, XIONG Tao. A PSO and pattern search based memetic algorithm for SVMs parameters optimization[J]. Neurocomputing, 2014, 117(1): 98-106
[17] ZHANG Qiantu, FANG Liqing, MA Leilei, et al. Research on parameters optimization of SVM based on improved fruit fly optimization algorithm[J]. International Journal of Computer Theory and Engineering, 2016, 8(6): 500-505 DOI:10.7763/IJCTE.2016.V8.1096
[18] KARABOGA D, BASTURK B. On the performance of artificial bee colony (ABC) algorithm[J]. Applied Soft Computing, 2008, 8(1): 687-697 DOI:10.1016/j.asoc.2007.05.007
[19] KARABOGA D, GORKKEMLI B, OZTURK C, et al. A comprehensive survey: artificial bee colony (ABC) algorithm and applications[J]. Artificial Intelligence Review, 2014, 42(1): 21-57 DOI:10.1007/s10462-012-9328-0
[20] KIRAN M S, BABALIK A. Improved artificial bee colony algorithm for continuous optimization problems[J]. Journal of Computer & Communications, 2014, 02(4): 108-116
[21] SECUI D C. A new modified artificial bee colony algorithm for the economic dispatch problem[J]. Energy Conversion & Management, 2015, 89(89): 43-62
[22] 秦全德, 程适, 李丽, 等. 人工蜂群算法研究综述[J]. 智能系统学报, 2014, 9(2): 127-135
QIN Quande, CHENG Shi, LI Li, et al. Artificial bee colony algorithm: a survey[J]. CAAI Transactions on Intelligent Systems, 2014, 9(2): 127-135 DOI:10.3969/j.issn.1673-4785.201307019
[23] KARABOGA D, AKAY B. A comparative study of artificial bee colony algorithm[J]. Applied Mathematics & Computation, 2009, 214(1): 108-132
[24] TSAI H C. Integrating the artificial bee colony and bees algorithm to face constrained optimization problems[J]. Information Sciences, 2014, 258(3): 80-93
[25] SATHYANARAYANA S V, AMARAPPA S. Data classification using support vector machine (SVM), a simplified approach[J]. International Journal of Electronics & Computer Science Engineering, 2014, 3(4): 435-445
[26] 刘岩, 李幼军, 陈萌. 基于EMD和SVM的抑郁症静息态脑电信号分类研究[J]. 山东大学学报(工学版), 2017, 47(3): 21-26
LIU Yan, LI Youjun, CHEN Meng. Research on the classification of resting state EEG signal between depression patients and normal controls by EMD and SVM methods[J]. Journal of Shandong University (Engineering Science), 2017, 47(3): 21-26
[27] LI Meng, YI Liangzhong, GAO Zhisheng, et al. Support vector machine (SVM) based on membrane computing optimization and the application for C-band radio abnormal signal identification[J]. Journal of Information & Computational Science, 2014, 11(11): 3683-3693
[28] 李颖新, 阮晓钢. 基于支持向量机的肿瘤分类特征基因选取[J]. 计算机研究与发展, 2005, 42(10): 1796-1801
LI Yingxin, RUAN Xiaogang. Feature selection for cancer classification based on Support Vector Machine[J]. Journal of Computer Research and Development, 2005, 42(10): 1796-1801
[29] YU Lei, LIU Huan. Efficient feature selection via analysis of relevance and redundancy[J]. Journal of Machine Learning Research, 2004, 5(12): 1205-1224
[30] CHANG Chihchung, LIN Chihjen. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems & Technology, 2011, 2(3): 1-39
[31] 梁兴建, 詹志辉. 基于双模式变异策略的改进遗传算法[J]. 山东大学学报(工学版), 2014, 44(6): 1-7
LIANG Xingjian, ZHAN Zhihui. Improved genetic algorithm based on the dual-mode mutation strategy[J]. Journal of Shandong University (Engineering Science), 2014, 44(6): 1-7 DOI:10.6040/j.issn.1672-3961.2.2014.306
[32] LIU Yihui. Cancer identification based on DNA microarray data[C]//Processdings of the International Conference on Emerging Technologies in Knowledge Discovery and Data Mining. Nanjing, China: Springer-Verlag, 2007: 153-161. http://www.springerlink.com/content/82200877260v2g34
[33] ZHANG Shanwen, HUANG Deshuang, WANG Shulin. A method of tumor classification based on wavelet packet transforms and neighborhood rough set[J]. Computers in Biology & Medicine, 2010, 40(4): 430-437
表 1 试验数据集描述 Table 1 Description of experimental datasets
表 2 FCBF算法选择的特征数目 Table 2 Numbers of selected features by FCBF algorithm
表 3 不同分类器基于FCBF算法的分类准确率 Table 3 Classification accuracies of different classifiers based on FCBF
表 4 Leukemia数据集不同数目特征的分类精度 Table 4 Classification accuracies with different number offeatures in leukemia
表 5 DLBCL数据集不同数目特征的分类精度 Table 5 Classification accuracies with different number offeatures in DLBCL
基于人工蜂群和SVM的基因表达数据分类
叶明全, 高凌云, 万春圆