-
基于DRCoALTP的印刷体文档图像多文种识别方法
- 吴正健,吾尔尼沙·买买提,杨耀威,阿力木江·艾沙,库尔班·吾布力
-
2025, 55(1):
51-57.
doi:10.6040/j.issn.1672-3961.0.2023.288
-
摘要
(
61 )
PDF (2046KB)
(
28
)
收藏
-
参考文献 |
相关文章 |
多维度评价
针对视觉结构类似导致的文种相似性问题,基于局部三值模式的相邻共生矩阵(co-occurrence of adjacent local ternary patterns, CoALTP)提出一种具有判别性和鲁棒性的局部三值模式的相邻共生矩阵(discriminant and robust co-occurrence of adjacent local ternary patterns, DRCoALTP)方法,用于获取图像纹理。计算文档图像的相邻稀疏局部三值模式(adjacent sparse local ternary patterns, ASLTP),将采样点数量设定为8,以便获得详细的局部纹理,设计出一种基于自适应中值滤波思想的半自适应阈值方法,用于提取灰度图像中心像素周边对角邻域像素的编码值。ASLTP在邻域像素位置存放稀疏局部三值模式(local ternary patterns, LTP)的值,提取灰度共生矩阵(gray-level co-occurrence matrix, GLCM),从4个方向统计使用ASLTP后灰度图像像素之间的频率关系。该算法在阿拉伯文、俄文、简体中文、哈萨克文、藏文、蒙古文、土耳其文、维吾尔文、英文、吉尔吉斯斯坦文和塔吉克斯坦文11个文种的自建印刷体文档图像数据集中验证。试验结果表明,相较于基线和先进的纹理方法,改进后的方法更具判别性,平均识别准确率为99.14%。为改善CoALTP方法可能产生低效分类特征的问题,提出半自适应阈值方法,有效提高识别率并抑制噪声。此外,针对算法产生的高维特征,采用基于均方差的特征选择方法,通过支持向量机(support vector machine, SVM)分类器特征选择后,识别速度提高284%,对11个文种的平均识别准确率达99.44%。