山东大学学报 (工学版)

一种网络流量分类特征的产生及选择方法

阳爱民1,周咏梅1,邓河2,周剑峰3

2010, 40(5): 1-7.

摘要 ( 804 )

PDF (1195KB) ( 3007 )

相关文章 | 多维度评价

在基于机器学习方法的网络流量分类系统中,特征产生及特征选择将直接影响到分类的速度及精度。针对这种情况,在特征产生方面,结合Packet-Level和Flow-Level上的信息,对报文属性(大小、个数、时间、标志位)、流的属性(时间)进行分析和研究,产生了37个网络流量统计特征。在特征选择方面,提出一种结合Filter模型和Wrapper模型的网络流量特征选择方法,实现了降维作用。实验表明,提出的方法提高了分类的精度。

基于检测树的抗原合法性快速检测方法

孙秋丽,韩芳溪,王晓琳

2010, 40(5): 8-11.

摘要 ( 857 )

PDF (1012KB) ( 1361 )

相关文章 | 多维度评价

针对负选择算法中抗原合法性检测时存在重复检测、逐位比较、检测效率低的问题,提出了基于检测树的抗原合法性快速检测方法。采用分步构造的方式将检测器集合构造为一棵检测树,待检测抗原只需在该检测树上进行一次路径搜索即可判段该抗原的合法性。实验结果表明,该方法检测效率优于遍历检测器集合逐位比较的检测方法,可以满足实时检测的要求,为基于人工免疫原理的异常检测问题提供了一种有效途径。

运用改进的SPEA2算法优化网格工作流调度方法

李金忠1, 夏洁武1, 曾劲涛1, 王翔2*

2010, 40(5): 12-16.

摘要 ( 837 )

PDF (909KB) ( 2127 )

相关文章 | 多维度评价

提出了一种QoS约束的多目标优化的网格工作流调度算法ISPEA2,该算法基于表达结构丰富的AGWL网格工作流模型,在SPEA2算法中引入约束检测对网格工作流调度问题进行优化,克服了当前网格工作流调度算法中大多只考虑DAG结构的网格工作流、涉及QoS参数较少及将多QoS参数聚合成一个单目标函数进行优化调度的缺陷,可供决策者根据用户的实际需求从产生的Pareto优化解集中选择最终的满意解。通过与采用原SPEA2设计的网格工作流调度算法OSPEA2的比较,表明ISPEA2算法所获得的Pareto优化解集都是满足QoS约束的非支配解,且获得了更优的平均结果。

一种基于AR模型的非线性盲源提取方法及其应用

蔡英1, 王刚2*

2010, 40(5): 17-23.

摘要 ( 700 )

PDF (1371KB) ( 1868 )

相关文章 | 多维度评价

针对非线性盲源分离中非线性问题转化为线性问题,提出了一种基于AR模型的新方法。该方法在已知源信号的AR模型前提下,不但能够处理源信号的分离问题,还能够提取特定源信号,而后者是原来方法不具备的。从语音信号的非线性混合中提取源信号的仿真实验证实了该算法的有效性。

基于B样条FFD模型配准的虹膜图像融合方法

吴国瑶,马立勇

2010, 40(5): 24-27.

摘要 ( 983 )

PDF (765KB) ( 1828 )

相关文章 | 多维度评价

通过摄像头得到的虹膜图像的纹理通常是模糊的,不能直接用于虹膜识别。但是由于虹膜纹理会随着瞳孔的缩放发生非刚性形变,直接对虹膜图像融合无法得到良好的效果。本文采用基于B样条的FFD(free-form deformation)模型对图像进行配准,然后用小波进行融合,为下一步的虹膜识别提供了合适的图像。通过该方法得到的融合图像直观上细节信息更多,并通过熵进行了度量。

关于T范数的广义模糊子坡(理想)

芮眀力,廖祖华,胡淼菡,陆金花

2010, 40(5): 28-33.

摘要 ( 689 )

PDF (326KB) ( 1269 )

相关文章 | 多维度评价

给出了广义模糊子坡(理想)及关于T范数的广义模糊子坡(理想)的概念,探讨了它们的一些性质,在此基础上得到了它们的等价刻画。

融合PSO算法思想的进化算法

刘建华1,2, 黄添强2, 严晓明2

2010, 40(5): 34-40.

摘要 ( 708 )

PDF (1148KB) ( 1108 )

相关文章 | 多维度评价

粒子群算法(particle swarm optimization,PSO)是仿真于生物群体的社会行为的一种智能优化算法,其原始形式难以体现数学的直观性和本质性。然而，在简化算法原始模型的基础上,PSO算法的理论分析得到其数学模型,并且说明了其是一个迭代进化系统。利用PSO算法的数学模型代替标准PSO算法速度及位置的迭代公式,并选择适当的参数,从而构造了一种新的进化算法。新的进化算法形式更能直接体现PSO算法的数学思想。经仿真试验表明,新的进化算法效果不差于标准PSO算法,并且参数少且容易分析。

基于偏最小二乘降维的分类模型比较

曾雪强1,李国正2

2010, 40(5): 41-47.

摘要 ( 761 )

PDF (2419KB) ( 2266 )

相关文章 | 多维度评价

在众多数据降维方法中,偏最小二乘降维方法是一种非常有效的数据降维模型,并被广泛应用于生物基因数据分析等领域。但基于偏最小二乘降维的分类模型的选择问题,往往为以往的研究工作所忽视,研究者基本是根据自身喜好选择不同的分类模型。针对这一问题,本文通过大量的实验,对多种不同分类模型在生物基因芯片数据集上的性能进行了比较和分析。通过t检验,发现人工神经网络、逻辑斯特判别、线性支持向量机是3种在偏最小二乘降维上性能较好的的分类模型。

OPHCLUS:基于序关系保持的层次聚类算法

雷小锋1,庄伟1,程宇1,丁世飞1,谢昆青2

2010, 40(5): 48-55.

摘要 ( 745 )

PDF (2152KB) ( 1706 )

相关文章 | 多维度评价

引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点间的原始距离排序关系。定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的评价标准。利用序关系损失的概念扩展出两种簇间距离度量,实现了基于序关系保持的层次聚类算法(order-preserving based hierarchical clustering algorithm, OPHCLUS)。实验仿真证明了OPHCLUS对聚类质量提升的有效性。

采样特异性因子及异常检测

孙静宇,余雪丽,陈俊杰, 李鲜花

2010, 40(5): 56-59.

摘要 ( 711 )

PDF (362KB) ( 1236 )

相关文章 | 多维度评价

特异性因子是数据的重要特征之一,常通过累计数据之间的差异得到,是面向特异性挖掘的核心概念,然而遇到了计算时间复杂度过高的问题。本文在分析已有特异性因子定义特点及其计算算法时间复杂度的基础上,指出应该基于采样的方法定义特异性因子。给出了一种基于采样的特异性因子定义,即采样特异性因子(sampled peculiarity factor,SPF),并提出了一种基于SPF的异常检测算法。在真实数据集上进行对比实验,结果表明:该算法在检测异常数据时,精度降低不明显,而运行效率得以较大提高,这说明基于采样定义特异性因子的方法可行和更为合理。本文还指出采用合适的采样方法可经进一步优化SPF的计算过程,进而节约占用CPU时间和满足实时性要求高的应用。

一种基于SVM的快速特征选择方法

戴平,李宁*

2010, 40(5): 60-65.

摘要 ( 1234 )

PDF (354KB) ( 4436 )

相关文章 | 多维度评价

针对现有特征选择方法计算量大、速度慢的缺点,提出了一种基于SVM的快速特征选择算法。该算法使用SVM作为分类器,并利用粒子群优化算法进行搜索。通过利用SVM线性核与多项式核函数的特性,减少了在特征选择中训练分类器的次数,降低了计算复杂度。实验结果表明在不损失分类精度的情况下,能显著提高特征选择的速度。

一种ReliefF特征估计方法在无监督流形学习中的应用

谭台哲,梁应毅,刘富春

2010, 40(5): 66-71.

摘要 ( 763 )

PDF (535KB) ( 1579 )

相关文章 | 多维度评价

针对流形学习存在的对噪声敏感、易受缺失值影响问题以及现实世界数据的结构复杂性和稀疏程序大等问题,提出引入ReliefF特征估计,即应用ReliefF在流形学习中。实验分4种情况进行:一是不使用特征提取方法;二是仅使用ReliefF特征估计方法;三是仅使用有代表性的局部线性嵌入算法;四是使用改进算法。结果表明,改进算法得到的分类准确率分别比单纯使用ReliefF特征估计方法和局部线性算法都要高。

基于agent的模式表示模型AIM

程显毅1,2,朱倩2,管致紧1

2010, 40(5): 72-76.

摘要 ( 858 )

PDF (1033KB) ( 1841 )

相关文章 | 多维度评价

针对模式表示研究存在的语义缺失问题,基于agent技术和人的记忆原理,提出一个新的模式表示模型agent影响图(agent influence map,AIM)。AIM反映了模式的整体特征,提供一个有效的软计算工具来支持基于先验知识的自适应行为。AIM通过特征的多阶段整合呈现记忆模式的层次性;把模式信息存储在整个网络中,通过协作涌现出高层次特征体现记忆的语义特性。

歌词与内容相结合的流行音乐结构分析

梁塽,许洁萍*,李欣

2010, 40(5): 77-81.

摘要 ( 703 )

PDF (889KB) ( 2845 )

相关文章 | 多维度评价

针对目前学术界主流的基于内容提取音乐结构开销过大和产生冗余碎片的问题,提出通过歌词分析对音乐结构进行自动提取,同时结合基于内容的SVM分类,以歌曲节拍为单位进行有无人声的判别,进一步对歌词提取的边界进行校正,精确了音乐结构的边界点。在相同数据集上的实验中,这种歌词与内容分析相结合的音乐结构提取算法对桥段和尾奏的分析准确率分别提高了9％和11％。

基于免疫网络的无监督式分类算法

梁春林1,彭凌西2*

2010, 40(5): 82-86.

摘要 ( 645 )

PDF (583KB) ( 1287 )

相关文章 | 多维度评价

基于免疫网络原理,提出了一种新的无监督式分类算法。首先基于形态空间理论给出了抗体、抗原和免疫网络的形式化定义,建立了抗体克隆选择、高频变异以及免疫记忆的动态模型和相应的数学方程,最后给出了分类过程。实验表明该算法的分类精度要高于其它传统的聚类算法,并具有很好的持续学习、动态调节、特性记忆等特性。如果把抗体视为某种既定模式,合理地调整抗原集合,则该模型具有广泛的用途。

舌体图像分割技术的实验分析与改进

李国正1,史淼晶1,李福凤2,王忆勤2

2010, 40(5): 87-95.

摘要 ( 939 )

PDF (2160KB) ( 1971 )

相关文章 | 多维度评价

数字舌像图片的正确分割是中医舌诊自动化技术的关键。因为舌体特征的多样性,经典成熟的分割算法并不适用。首先对近5a来该领域已有工作,尤其是Snake算法的研究进展,分类用临床图片测评总结,讨论各类代表性算法的优缺点。最后在已有3个主流算法基础上通过改进提出了3个新算法,不同程度上提高了已有主流算法舌体分割的效果。

基于退火遗传算法的NURBS曲线逼近

刘彬,张仁津

2010, 40(5): 96-100.

摘要 ( 898 )

PDF (898KB) ( 1840 )

相关文章 | 多维度评价

利用退火遗传算法实现任意阶、任意节点数的非均匀有理B样条(non uniform rational b-spline, NURBS)曲线逼近型值点序列。首先将NURBS曲线的控制顶点、权、节点序列和逼近型值点的t参数序列用浮点数编码为基因个体,然后通过循环执行交叉算子、变异算子和退火选择算子求解寻找最优解或者次优解。最后用四种不同控制顶点数和次数的NURBS曲线逼近同一个型值点序列,给出了四种不同条件下的数值结果和图形。实验结果表明通过退火遗传算法能够稳定地用不同次数和控制顶点个数的NURBS曲线逼近型值点序列。

基于Harris角点的木材CT图像配准

张训华1,业宁2,王厚立3

2010, 40(5): 101-104.

摘要 ( 802 )

PDF (766KB) ( 2166 )

相关文章 | 多维度评价

提出一种三角形法描述Harris特征点的方法,该算法首先利用Harris算子对两幅图像进行角点检测,将检测到的角点按照权值大小进行排序后,利用三角形法对特征点进行特征描述,从而找出两幅图像间特征点相互对应的关系,同时也得到了图像配准所需要的参数。实验结果证明,该算法配准准确率高,速度快,具有很强的鲁棒性。

基于词语量化相关关系的句际相关度计算

钟茂生1, 刘慧2, 邹箭3

2010, 40(5): 105-111.

摘要 ( 742 )

PDF (874KB) ( 2607 )

相关文章 | 多维度评价

语篇上下文句子之间形式上是否衔接、意义上是否关联,是文本推理和文本结构分析的重要依据。上下文句子之间的关联性分析可分为定性和定量两种形式,作者以词语相关关系量化分析为基础,将上下文句子之间的相关度看成是由组成两个句子的所有词对之间的量化相关关系的组合结果,来定量地计算句子之间的相关度。实验结果表明,文中给出的句子相关度计算方法能够避免相似性度量中句子长度窗口受限问题;同时,与人工给出的句子间相关度进行相关系数计算表明,该方法能够很好的模拟人的认知来计算句子之间的语义相关性。

iCome:基于多义性的图像检索系统

陈虎,黎铭*,姜远,周志华

2010, 40(5): 112-116.

摘要 ( 842 )

PDF (1598KB) ( 1327 )

相关文章 | 多维度评价

近年来,多媒体技术的发展使得图像的数量飞速增长,图像检索技术也越来越引起研究者的重视。经过研究人们发现语义鸿沟是导致图像检索系统效果不好的关键因素。以往的系统未能有效解决这一问题。因为多义性是产生语义鸿沟的一个关键因素,所以从多义性的角度构建了iCome图像检索系统。该系统考虑输出空间的多义性实现了基于文本标注的图像检索,考虑输入空间的多义性并结合用户反馈实现了基于内容的图像检索。

基于字的词位标注汉语分词

于江德1,睢丹1,樊孝忠2

2010, 40(5): 117-122.

摘要 ( 764 )

PDF (478KB) ( 2271 )

相关文章 | 多维度评价

近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。

不均衡问题中的特征选择新算法:Im-IG

尤鸣宇,陈燕,李国正

2010, 40(5): 123-128.

摘要 ( 939 )

PDF (1115KB) ( 2756 )

相关文章 | 多维度评价

机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalancedinformation gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。

基于流形学习的图像检索算法研究

贺广南，杨育彬*

2010, 40(5): 129-136.

摘要 ( 646 )

PDF (1026KB) ( 1750 )

相关文章 | 多维度评价

流形学习以发现非线性高维数据的本质维数为目标,使其更适合数据分析和高维数据的降维。图像检索中“语义鸿沟”问题指的是高维数据空间与低维的语义子空间之间的鸿沟,虽然利用相关反馈机制可以缩小这种鸿沟提高准确率,但是因为反馈图像数目较少,图像特征维数相对较高,会容易产生维数灾难问题。流形学习的引入为解决这一难题带来了新的希望,因为通过流形学习的方法学习高维图像特征数据的本征维数用于图像检索,大大提高了检索性能。基于流形学习的图像检索算法都是半监督的流形学习,充分利用了反馈信息,学习查询图像的语义子空间,有效的实现了高维数据的降维。

基于BIRCH的木材缺陷识别

吴东洋,业宁

2010, 40(5): 137-140.

摘要 ( 839 )

PDF (938KB) ( 1466 )

相关文章 | 多维度评价

提出了一种新的基于分层的平衡迭代归约及聚类(balance iterative reducing and clustering using hierarchies,BIRCH)算法的木材缺陷识别方法,讨论了关于分支因子(B,L)、阈值T的选取及非缺陷类判别问题。该方法通过在一定阈值内构建CF树,产生初始聚类,对初始聚类进行非缺陷类判别,自动识别木材缺陷类及位置并标记。实验结果表明,该算法能有效地进行木材缺陷识别,平均识别查准率约为86.3％,平均识别查全率约为90.1％。

基于自扩展与最大熵的领域实体关系自动抽取

雷春雅1,郭剑毅1,2,余正涛1,2,毛存礼1,2,张少敏1,黄甫1

2010, 40(5): 141-145.

摘要 ( 724 )

PDF (672KB) ( 1781 )

相关文章 | 多维度评价

实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56％和81.17％。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。

层次聚类算法的有效性研究

胡晓庆1,马儒宁1*,钟宝江2

2010, 40(5): 146-149.

摘要 ( 598 )

PDF (1247KB) ( 1245 )

相关文章 | 多维度评价

针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,建立了一个新的聚类有效性函数。在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能。

基于相异性和不变特征的半监督图像检索

宿洪禄,李凡长*

2010, 40(5): 150-153.

摘要 ( 773 )

PDF (683KB) ( 1076 )

相关文章 | 多维度评价

基于同构的思想,通过双谱形式化对图像的平移和旋转不变特征进行描述。为了扩展检索结果的语义范围,在半监督图像检索中应用了一种扩大结果图像差异性的方法(image retrieval based on diversity and invariant features,IRDIF)来扩大检索结果所涵盖的语义范围。即通过把已检索出的项设置为吸收态,降低了相似样本被检索到的可能性。该方法在Corel图像库上进行了实验分析,并取得了满意的效果。

基于方向场信息的指纹图像质量评测

李铁军,刘倩,张宇

2010, 40(5): 154-158.

摘要 ( 870 )

PDF (1156KB) ( 1200 )

相关文章 | 多维度评价

指纹图像的质量严重影响指纹识别系统的性能,指纹图像质量评测在指纹识别系统中的指纹分割、匹配等环节有重要应用,对指纹识别算法的研究具有重要意义。利用指纹图像的方向场信息,提出了一种基于指纹方向场信息连续性的指纹图像质量评测方法,评测结果将指纹图像分成质量较好和较差两类。该评测方法对于指纹图像的每个分块,分别计算原始方向场信息和低通滤波平滑后的方向场信息,根据统计的整幅图像低通滤波平滑前后原始方向场的变化率,评测指纹图像的质量。实验结果表明该方法能够较为有效地提高低质量指纹图像质量评测的正确率。

一种基于概念格的用户兴趣预测方法

茅琴娇1,冯博琴1,李燕1,2,潘善亮3

2010, 40(5): 159-163.

摘要 ( 634 )

PDF (674KB) ( 1647 )

相关文章 | 多维度评价

传统协作过滤方法将用户所有属性不加区分地用于计算相似度寻找最近邻,推荐效果不太理想。本文提出了一种基于概念格的用户兴趣预测算法。首先,从用户访问日志中抽取用户资源访问的形式背景,构建该形式背景的概念格;其次,选择合适的滑动窗口来限定用户的当前访问内容,据此识别出用户当前的独立偏好;最后分别计算独立偏好对待排序文档的推荐效用,通过加权计算用户当前所有兴趣所反映的个性化资源偏好,进行用户兴趣预测。该方法分析了传统方法中没有考虑的文档独立性,从而有效地识别和划分用户偏好,符合用户之间仅仅在某一方面或者某一兴趣上相似、而并非所有兴趣都相似这一特点。实验采用真实的日志数据。结果表明:该方法能够有效地实现资源推荐,且可以减轻传统协作过滤方法的冷启动问题。

基于鲁棒性神经模糊网络的脉冲噪声滤波算法

李岳阳,王士同

2010, 40(5): 164-170.

摘要 ( 631 )

PDF (1285KB) ( 1355 )

相关文章 | 多维度评价

在一个简单有效的脉冲噪声检测器和一个鲁棒性神经模糊(robust neuro-fuzzy, RNF)网络的基础上,对于被脉冲噪声污染的彩色图像,提出了一种新的脉冲噪声滤波算法。该算法可分两步进行,首先对RNF网络进行优化训练,然后用优化后的网络对被噪声污染的彩色图像进行噪声滤波。在该算法中,采用一个简单有效的脉冲噪声检测器,它能快速有效的检测出彩色图像中的噪声像素。经过优化的RNF网络仅对噪声像素进行滤波,而对非噪声像素则保持不变。在RNF网络的构造中,采用一个新的隶属函数,使该算法对于脉冲噪声具有鲁棒性。实验结果证明,与一些传统的非线性、多通道滤波器相比,该滤波器具有较好的滤除噪声能力,并且能较好的保留图像的边缘和细节,具有很好的鲁棒性。

CAN²:构件组合式神经网络

吴和生1,2,王崇骏1,2,谢俊元1,2

2010, 40(5): 171-178.

摘要 ( 645 )

PDF (1528KB) ( 1195 )

相关文章 | 多维度评价

探索有广阔应用前景的工程化神经计算技术是促进智能计算技术进展的一种有效途径。为有效解决工程化神经计算面临的难题:神经网络的“黑箱性”,提出了构件组合式神经网络(componentassembled neural network,CAN²)。基于CAN²技术,构建了易于理解和复用的数字逻辑神经构件库(digital logic neuro-component library,DLNL)。应用DLNL实现复杂数字逻辑功能、解决任意分类问题,展示CAN²技术的优越性。实验表明,CAN²能有效减少神经网络的“黑箱性”,有较强的可复用性,为神经计算工程化作出了一种有效的尝试。

当期目录