您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(工学版)》

山东大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (2): 23-29.

• 机器学习与数据挖掘 • 上一篇    下一篇

结肠癌基因表达谱的特征选取研究

潘冬寅,朱发,徐昇,业宁*   

  1. 南京林业大学信息科学与技术学院, 江苏 南京 210037
  • 收稿日期:2011-04-15 出版日期:2012-04-20 发布日期:2011-04-15
  • 通讯作者: 业宁(1967- ),男,江苏南京人,教授,博士,主要研究方向为数据挖掘,算法分析. Email:yining@nifu.edu.cn E-mail:yining@nifu.edu.cn
  • 作者简介:潘冬寅(1986- ),女,江苏盐城人,硕士研究生,主要研究方向为数据挖掘,模式识别.Email:winbutterfly2008@yahoo.com.cn
  • 基金资助:

    国家自然科学基金资助项目(30671639);江苏省自然科学基金资助项目(BK2009393);江苏省青蓝工程学术带头人资助项目;江苏省科技创新工程资助项目(CXLX11-0525)

Feature selection of gene expression profiles of colon cancer

PAN Dong-yin, ZHU Fa, XU Sheng, YE Ning*   

  1. College of Information Technology, Nanjing Forestry University, Nanjing 210037, China
  • Received:2011-04-15 Online:2012-04-20 Published:2011-04-15

摘要:

为了找到与结肠癌相关的基因,提高结肠癌样本的识别率,提出了基于Chernoff距离的浮动顺序搜索算法(sequential floating search method, SFSM)。通过对结肠癌基因表达谱数据集的分析,对每个基因进行评价和筛选;对筛选后的基因子集利用SFSM算法进行搜索,并以Chernoff距离作为其评估函数,生成若干候选特征基因子集;利用支持向量机(support vector machine,SVM)、K-近邻(Knearest neighbor,KNN)和径向基(radical basis function,RBF)神经网络分类器来检验候选特征基因子集的分类效果。实验结果表明,利用SFSM及评估函数Chernoff距离发现在参数β=025时能找到最佳的特征基因组合,该组合能以很高的正确率识别结肠癌样本。

关键词: 特征选择, Chernoff距离, 浮动顺序搜索, 支持向量机, K-近邻, 径向基神经网络

Abstract:

 In order to improve the recognition rate of colon cancer sample by selecting the related genes, sequential floating search method(SFSM) basing on Chernoff distance was proposed. Every gene was evaluated and selected by analyzing the data set of the colon cancer gene expression profiles. Some candidate feature gene subsets were obtained by searching the selected gene subset with the method of SFSM whose evaluation function was Chernoff distance. Three different classifies, support vector machines, K-nearest neighbors, and RBF neural networks, were used to validate the classified efficiency. The experimental results showed that when β=025, the feature gene combination obtained by SFSM with Chernoff distance as its evaluation function was optimal, and colon cancer sample could be recognized best.

Key words: feature selection, Chernoff distance, sequential floating search method(SFSM), support vector machine(SVM), K-nearest neighbor(KNN), radical basis function neural network (RBFNN)

[1] 牟廉明. 自适应特征选择加权k子凸包分类[J]. 山东大学学报(工学版), 2018, 48(5): 32-37.
[2] 叶明全,高凌云,万春圆. 基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版), 2018, 48(3): 10-16.
[3] 韩学山,王俊雄,孙东磊,李文博,张心怡,韦志清. 计及空间关联冗余的节点负荷预测方法[J]. 山东大学学报(工学版), 2017, 47(6): 7-12.
[4] 刘岩,李幼军,陈萌. 基于EMD和SVM的抑郁症静息态脑电信号分类研究[J]. 山东大学学报(工学版), 2017, 47(3): 21-26.
[5] 李素姝,王士同,李滔. 基于LS-SVM与模糊补准则的特征选择方法[J]. 山东大学学报(工学版), 2017, 47(3): 34-42.
[6] 方昊,李云. 基于多次随机欠采样和POSS方法的软件缺陷检测[J]. 山东大学学报(工学版), 2017, 47(1): 15-21.
[7] 莫小勇,潘志松,邱俊洋,余亚军,蒋铭初. 基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版), 2016, 46(4): 21-27.
[8] 刘杰, 杨鹏, 吕文生, 刘阿古达木, 刘俊秀. 基于气象因素的PM2.5质量浓度预测模型[J]. 山东大学学报(工学版), 2015, 45(6): 76-83.
[9] 刘晓勇. 一种基于树核函数的半监督关系抽取方法研究[J]. 山东大学学报(工学版), 2015, 45(2): 22-26.
[10] 浩庆波, 牟少敏, 尹传环, 昌腾腾, 崔文斌. 一种基于聚类的快速局部支持向量机算法[J]. 山东大学学报(工学版), 2015, 45(1): 13-18.
[11] 李发权, 杨立才, 颜红博. 基于PCA-SVM多生理信息融合的情绪识别方法[J]. 山东大学学报(工学版), 2014, 44(6): 70-76.
[12] 徐晓丹, 段正杰, 陈中育. 基于扩展情感词典及特征加权的情感挖掘方法[J]. 山东大学学报(工学版), 2014, 44(6): 15-18.
[13] 魏小敏,徐彬,关佶红. 基于递归特征消除法的蛋白质能量热点预测[J]. 山东大学学报(工学版), 2014, 44(2): 12-20.
[14] 周咏梅1,杨佳能2,阳爱民2. 面向文本情感分析的中文情感词典构建方法[J]. 山东大学学报(工学版), 2013, 43(6): 27-33.
[15] 王昊,华继学,范晓诗. 基于双联支持向量机的入侵检测技术[J]. 山东大学学报(工学版), 2013, 43(6): 53-56.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!