山东大学学报 (工学版)

基于正反向异质性的遥感图像变化检测

李士进,王声特,黄乐平

2018, 48(3): 1-9. doi:10.6040/j.issn.1672-3961.0.2017.406

摘要 ( 1500 )

PDF (9936KB) ( 475 )

参考文献 | 相关文章 | 多维度评价

为提高水体周边环境的变化检测结果的精度,提出一种改进的变化检测方法。在光谱与纹理特征结合的基础上融合指数特征构建混合特征空间,采用超像素生成算法(simple linear iterative cluster, SLIC)处理叠加影像获取地物对象,并综合地物对象的正反向异质信息构建地物对象的正反向异质性;使用最大数学期望算法与贝叶斯最小错误率理论获取两时相的变化信息,排除植被伪变化信息,形成相对准确和鲁棒的检测结果。试验结果表明:该方法能够有效区分水体周边环境中感兴趣的地物变化信息与不感兴趣的干扰信息、“伪变化信息”等,虚检率和漏检率较低,且正确率较高为96%以上,能够智能发现湖库水域周边“非正常”土地利用变化。

基于人工蜂群和SVM的基因表达数据分类

叶明全,高凌云,万春圆

2018, 48(3): 10-16. doi:10.6040/j.issn.1672-3961.0.2017.405

摘要 ( 1693 )

PDF (569KB) ( 842 )

参考文献 | 相关文章 | 多维度评价

基因表达数据存在高维、小样本、高噪声等特性,使得相应的肿瘤分类诊断面临着一定的挑战。为了实现更加精确的分类准确率,利用人工蜂群(artificial bee colony, ABC)算法对支持向量机(support vector machine, SVM)的核函数参数和惩罚因子进行优化,采用准确率作为分类模型的适应度函数,提出一种基于ABC和SVM的基因表达数据分类方法ABC-SVM。在6种公开的肿瘤基因表达数据集上进行试验,并对比分析其他的分类方法。结果表明,在筛选得到的较少信息基因基础上,ABC-SVM可获得更高的肿瘤分类准确率,对肿瘤样本类型进行更有效的分类预测。

电商商品嵌入表示分类方法

龙柏,曾宪宇,李徵,刘淇

2018, 48(3): 17-24. doi:10.6040/j.issn.1672-3961.0.2017.411

摘要 ( 1436 )

PDF (837KB) ( 850 )

参考文献 | 相关文章 | 多维度评价

借鉴近些年来在自然语言处理领域卓有成效的一种词嵌入模型word2vec,提出两种商品嵌入表示模型item2vec和w-item2vec。提出的两种模型通过对用户在每次购买时对商品的比较和选择行为进行建模,将商品表示为一个低维空间的向量,该向量可以有效地对不同商品之间的关系和性质进行度量。应用这一性质,使用item2vec和w-item2vec得到的向量对商品进行分类,试验结果表明:在仅使用10%数据训练的基础上,w-item2vec对商品分类的准确率可以接近50%。两种模型分类准确性均显著优于其他模型。

基于SVD和DCNN的彩色图像多功能零水印算法

赵彦霞, 王熙照

2018, 48(3): 25-33. doi:10.6040/j.issn.1672-3961.0.2017.408

摘要 ( 1829 )

PDF (2310KB) ( 533 )

参考文献 | 相关文章 | 多维度评价

为了对彩色图像进行版权保护和篡改定位,提出一种基于奇异值分解(singular value decomposition, SVD)和深度卷积神经网络(deep convolutional neural network, DCNN)的彩色图像多功能零水印算法。将原始RGB彩色图像转换成YCbCr彩色图像,对原始图像的Y、Cb、Cr通道离散小波变换得到的系数矩阵进行奇异值分解,得到DCNN的输入矩阵,从DCNN输出层的输入矩阵中获取原始图像信息矩阵,生成零鲁棒水印图像。从Y通道小波变换得到的低频子带系数矩阵中获取原始图像信息矩阵,生成零半脆弱水印图像。试验结果证明,提出的算法不但有效,而且对强度较大的常见攻击有较好的抵抗能力。

基于卷积神经网络的中文财经新闻分类方法

谢志峰,吴佳萍,马利庄

2018, 48(3): 34-39. doi:10.6040/j.issn.1672-3961.0.2017.433

摘要 ( 1788 )

PDF (1540KB) ( 728 )

参考文献 | 相关文章 | 多维度评价

针对目前财经领域内新闻数据杂乱无章、缺乏自动高效管理等问题,提出一种基于卷积神经网络的中文财经新闻分类方法。收集大规模财经新闻语料,通过无监督学习方法训练获得一个广义通用的财经类词向量模型,将词向量引入到卷积神经网络模型训练中实现有效分类。与传统方法相比,基于卷积神经网络的中文财经新闻分类方法网络模型结构简单,针对小样本集也能表现优异的性能,不仅能有效解决中文财经新闻分类问题,还可充分证明卷积神经网络在处理文本分类问题中的有效性。

基于词向量的领域情感词典构建

林江豪,周咏梅,阳爱民,陈锦

2018, 48(3): 40-47. doi:10.6040/j.issn.1672-3961.0.2017.403

摘要 ( 1795 )

PDF (1944KB) ( 737 )

参考文献 | 相关文章 | 多维度评价

针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。

基于核K-means的增量多视图聚类算法

张佩瑞,杨燕,邢焕来,喻琇瑛

2018, 48(3): 48-53. doi:10.6040/j.issn.1672-3961.0.2017.434

摘要 ( 2042 )

PDF (634KB) ( 759 )

参考文献 | 相关文章 | 多维度评价

针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。

基于HBase和SimHash的大数据K-近邻算法

王婷婷,翟俊海,张明阳,郝璞

2018, 48(3): 54-59. doi:10.6040/j.issn.1672-3961.0.2017.414

摘要 ( 1791 )

PDF (491KB) ( 515 )

参考文献 | 相关文章 | 多维度评价

针对大数据K-近邻(K-nearest neighbors, K-NN)计算复杂度高的问题,提出一种基于HBase和SimHash的大数据K-近邻分类算法。利用SimHash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。

深度卷积神经网络嵌套fine-tune的图像美感品质评价

李雨鑫,普园媛,徐丹,钱文华,刘和娟

2018, 48(3): 60-66. doi:10.6040/j.issn.1672-3961.0.2017.421

摘要 ( 1539 )

PDF (2903KB) ( 357 )

参考文献 | 相关文章 | 多维度评价

针对使用卷积神经网络对图像美感品质研究中图像数据库过小的问题,使用fine-tune的迁移学习方法,分析卷积神经网络结构和图像内容对图像美感品质评价的影响。在按图像内容进行美感品质评价研究时,针对图像数据再次减小的问题,提出连续两次fine-tune的嵌套fine-tune方法,并在数据库Photo Quality上进行试验。试验结果表明,嵌套fine-tune方法得到的美感品质评价正确率比传统提取人工设计特征方法平均高出5.36%,比两种深度学习方法分别平均高出3.35%和2.33%,有效解决了卷积神经网络在图像美感品质研究中因图像数据库过小而带来的训练问题。

一种长文本辅助短文本的文本理解方法

闫盈盈,黄瑞章,王瑞,马灿,刘博伟,黄庭

2018, 48(3): 67-74. doi:10.6040/j.issn.1672-3961.0.2017.402

摘要 ( 1406 )

PDF (848KB) ( 403 )

参考文献 | 相关文章 | 多维度评价

在狄利克雷多项回归(dirichlet-multinomial regression, DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression, DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。

有顺序依赖损耗的一维下料问题

梁泽华,崔耀东,张雨

2018, 48(3): 75-80. doi:10.6040/j.issn.1672-3961.0.2017.425

摘要 ( 1681 )

PDF (955KB) ( 410 )

参考文献 | 相关文章 | 多维度评价

针对从具体工业应用中抽象出的一种特殊一维下料问题,提出一种基于顺序价值校正框架的下料算法,在考虑问题特殊性的同时求取最小化线材使用量的下料方案。定义并求得每两个毛坯间的损耗值后,顺序生成各个排样图,并得到下料方案。通过不断修正毛坯价值,生成多个下料方案,取其中线材消耗量最小者来逼近最优解。与其他算法进行比较的结果表明,本算法有较少的材料消耗量与合适的计算时间。

基于蚁群算法求解Choquet模糊积分模型

陈嘉杰,王金凤

2018, 48(3): 81-87. doi:10.6040/j.issn.1672-3961.0.2017.412

摘要 ( 1731 )

PDF (584KB) ( 521 )

参考文献 | 相关文章 | 多维度评价

为了提高Choquet模糊积分模糊测度的搜索效率,提出改进的蚁群算法求解模型。根据特征数量构建Choquet模糊积分模型,搜索过程中对每只蚂蚁按状态转移概率进行全局搜索或局部搜索,迭代搜索最优解,并由Fisher判别进行分类。试验使用3组癌症基因数据集,利用R语言的Bioconductor工具箱进行数据预处理,并分析对比新模型和主流算法的分类效果。结果表明:在DLBCL数据集和Colon数据集中,基于蚁群算法的Choquet模糊积分得到最好的分类效果;在Prostate数据集中,虽然和基于遗传算法的Choquet模糊积分分类效果接近,但是蚁群算法仍然很快收敛,改进的蚁群算法可以作为求解模糊测度的快速方法。

一种集成卷积神经网络和深信网的步态识别与模拟方法

何正义,曾宪华,郭姜

2018, 48(3): 88-95. doi:10.6040/j.issn.1672-3961.0.2017.427

摘要 ( 2148 )

PDF (2302KB) ( 480 )

参考文献 | 相关文章 | 多维度评价

针对高斯过程的条件受限玻尔兹曼机(Gaussian-based conditional restricted Boltzmann machine, GCRBM)时序模型可以对单一种类的步态时序数据进行很好的预测,但对多类步态时序数据难以识别和预测的问题,提出一种集成卷积神经网络(convolutional neural network, CNN)和深信网(deep belief network, DBN)的步态识别与模拟方法。利用所有类步态数据训练多个不同结构的CNNs模型,利用多类数据训练多个DBNs模型学习低维特征,并通过低维特征训练多个GCRBMs模型。在步态识别与模拟时,CNNs分类器通过投票法确定步态数据的类别;通过识别到的类所对应的DBNs模型低维特征作为对应GCRBMs模型的输入预测目标数据的后期时序低维特征;利用DBNs重构阶段将后期时序低维特征模拟出步态图像。在CASIA系列步态数据集上的试验结果表明:与支持向量机(support vector machine, SVM)、集成DBN和CNN等方法相比,本研究方法的识别率有一定的提高,提出的模型能够根据步态时序预测结果模拟出真实的步态序列图像,证实了模型的有效性。

一种融合社交网络的叠加联合聚类推荐模型

读习习,刘华锋,景丽萍

2018, 48(3): 96-102. doi:10.6040/j.issn.1672-3961.0.2017.404

摘要 ( 1473 )

PDF (1010KB) ( 530 )

参考文献 | 相关文章 | 多维度评价

为解决用户冷启动问题并提高推荐算法的评分预测精度,提出一种融合社交网络的叠加联合聚类推荐模型(SN-ACCRec),将用户社交关系融合到对评分矩阵的用户聚类中。根据社交关系理论分析用户社交关系,采用模糊C均值聚类的思想划分用户块,并利用k均值算法对评分矩阵的产品聚类,得到一次联合聚类结果。通过迭代方式获取用户和产品多层联合聚类结果,不断叠加多层聚类结果来近似评分矩阵,预期先后得到用户和产品的泛化和细化类别,实现对评分矩阵中缺失值的预测。采用十重交叉验证法对模型评估,试验结果表明,该模型有效降低了推荐中的平均绝对误差(mean absolute error, MAE)和均方根误差(root mean square error, RMSE),同时在冷启动用户上也表现出了较好地推荐性能。

一种基于加权图模型的手指静脉识别方法

叶子云,杨金锋

2018, 48(3): 103-109. doi:10.6040/j.issn.1672-3961.0.2017.467

摘要 ( 1674 )

PDF (2527KB) ( 319 )

参考文献 | 相关文章 | 多维度评价

提出一种基于加权图模型的手指静脉网络特征描述方法。对于一幅手指静脉图像,通过图像划分获得图的顶点集,利用三角剖分获得图的边集,边的权重由边所连接顶点之间的特征相似度决定。通过这种方式,一幅手指静脉图像可转化为一个加权图,并通过度量加权图邻接矩阵之间的相似度实现手指静脉识别。详细研究影响识别结果的几个因素,并通过试验证明了该方法的有效性。

压缩感知重构算法的并行化及GPU加速

何文杰 ,何伟超,孙权森

2018, 48(3): 110-114. doi:10.6040/j.issn.1672-3961.0.2017.413

摘要 ( 1279 )

PDF (1800KB) ( 435 )

参考文献 | 相关文章 | 多维度评价

针对压缩感知重构算法计算实时性太差的问题,提出压缩采样追踪匹配(compressive sampling matching pursuit,CoSaMP)算法的并行化加速算法。基于多线程技术实现重构算法的粗粒度并行化,分析CoSaMP算法的计算热点,将其中耗时较多的矩阵操作移植在图形处理器(graphics processing unit, GPU)上,实现算法的细粒度并行化。在测试图像上进行试验,结果表明:并行化加速算法取得50倍的加速效果,有效地降低重构算法的计算时间开销。

基于BFOA和K-means的复合入侵检测算法

肖苗苗,魏本征,尹义龙

2018, 48(3): 115-119. doi:10.6040/j.issn.1672-3961.0.2017.428

摘要 ( 1531 )

PDF (1144KB) ( 350 )

参考文献 | 相关文章 | 多维度评价

K-means算法对初始聚类中心及簇数K的选择敏感,导致聚类结果不稳定,会对IDS(intrusion detection system, IDS)的检测结果产生重要影响。针对该问题,提出一种基于细菌觅食优化算法(bacterial foraging optimization algorithm, BFOA)和K-means相复合的入侵检测算法(HIDS)。HIDS算法首先基于距离阈值方法动态确定簇数K,再利用BFOA优化生成初始聚类中心,使得选择的初始聚类中心达到全局最优,从而解决了K-means算法的聚类结果不稳定的问题,进而提高入侵检测的准确率。为验证算法的有效性和测试算法性能,将HIDS在KDD99数据集上进行试验测试,入侵检测率可达98.33%。试验结果表明该方法能够有效提高检测率并且降低误检率。

面向短文本情感分析的词扩充LDA模型

沈冀,马志强,李图雅,张力

2018, 48(3): 120-126. doi:10.6040/j.issn.1672-3961.0.2017.407

摘要 ( 1587 )

PDF (607KB) ( 432 )

参考文献 | 相关文章 | 多维度评价

针对短文本在情感极性判断上准确率不高的缺点,在隐含狄利克雷分配(latent Dirichlet allocation, LDA)的基础上提出一种适用于短文本的情感分析模型。该模型在短文本中按词性寻找情感词汇,并对其进行有约束的词语扩充形成扩充集合,增强情感词汇之间的共现频率。将扩充集合加入文本中已发现的情感词汇,使得短文本长度增加并且模型可以提取到情感信息,模型通过这种方法将主题聚类变成情感主题聚类。该模型使用4 000条带有正负情感极性的短文本进行验证,结果表明该模型准确率比情感主题联合模型提高约11%,比隐含情感模型提高约9.5%,同时可以发现更多的情感词汇,证明该模型对于短文本能够提取更丰富的情感特征并在情感极性分类上准确率较高。

基于单调约束的径向基函数神经网络模型

曹雅,邓赵红,王士同

2018, 48(3): 127-133. doi:10.6040/j.issn.1672-3961.0.2017.423

摘要 ( 1700 )

PDF (662KB) ( 783 )

参考文献 | 相关文章 | 多维度评价

径向基函数(radial basis function, RBF)神经网络是一种高效的前馈式神经网络。它结构简单,具有良好的泛化能力,已经被广泛的应用于数据分类中。但是对于一些特殊的分类场景,如单调数据场景,神经网络还未充分发挥其潜能。针对此,提出单调径向基函数神经网络(monotonic radial basis function neural network, MC-RBF)。MC-RBF引入Tikhonov 正则化方法确保优化问题解的唯一性与有界性。试验结果表明,在处理具有单调性的数据集时,MC-RBF比原始的RBF神经网络具有更好的分类性能。

一种基于聚类的过抽样算法

王换,周忠眉

2018, 48(3): 134-139. doi:10.6040/j.issn.1672-3961.0.2017.416

摘要 ( 1535 )

PDF (456KB) ( 458 )

参考文献 | 相关文章 | 多维度评价

在过抽样技术研究中,为了合成较有意义的新样本,提出一种基于聚类的过抽样算法ClusteredSMOTE_-Boost。过滤小类的噪声样本,将剩余的每个小类样本作为目标样本参与合成新样本。对整个训练集聚类,根据聚类后目标样本所在簇的特点确定其权重及合成个数。将所有目标样本聚类,在目标样本所在的簇内选取K个近邻,并从中任选一个与目标样本合成新样本,使新样本与目标样本簇内的样本尽量相似,并减少由于添加样本而造成的边界复杂度。试验结果表明,ClusteredSMOTE_-Boost算法在各个度量上均明显优于SMOTE_-Boost、ADASYN_-Boost和BorderlineSMOTE_-Boost三种经典算法。

非均匀数据的变异系数聚类算法

杨天鹏,徐鲲鹏,陈黎飞

2018, 48(3): 140-145. doi:10.6040/j.issn.1672-3961.0.2017.410

摘要 ( 1609 )

PDF (1359KB) ( 829 )

参考文献 | 相关文章 | 多维度评价

针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。

当期目录