基于Tesseract-OCR的复杂发票自适应识别
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391

基金项目:

南京工程学院引进人才科研启动基金(YKJ201918);南京工程学院校级科研基金(CXY201930)


Adaptive recognition of complex invoices based on Tesseract-OCR
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对复杂发票任意区域下的特定表格内容提取与实时识别问题,提出了一种基于Tesseract-OCR引擎的自适应识别方法.首先利用OpenCV对发票图像进行预处理滤波、自适应阈值等一系列预处理得到二值图像;然后利用形态学中的开运算提取表格全域线段,进行表格位置提取,并结合表格交点坐标与自定义模板,实现表头与内容自适应适配;最后利用jTessBoxEditor对表格区域内容进行字库训练优化,最终实现基于Tesseract-OCR的字符识别.实验结果表明该方法具有高准确识别率,支持感兴趣区域自适应识别,具备高可用性.

    Abstract:

    An adaptive recognition method based on Tesseract-OCR engine is proposed to solve the problem of extracting and real-time recognition of specific table items in any region of complex invoices.First,the invoice image is preprocessed by OpenCV for filtering,adaptive threshold,etc.,to get a binary image.Then,the open operation in morphology is used to extract the global line segments and position of the table.The coordinates of the intersection points of the table is combined with the custom template to realize the adaptive adaptation between the table header and the content.Then the jTessBoxEditor is used to train and optimize the content of the table items,and finally the character recognition based on Tesseract-OCR is realized.The experimental results show that this method has high accurate recognition rate,supports the adaptive recognition of ROI (Region of Interest),and is highly available.

    参考文献
    相似文献
    引证文献
引用本文

孙瑞彬,钱夔,徐伟敏,路红.基于Tesseract-OCR的复杂发票自适应识别[J].南京信息工程大学学报,2021,13(3):349~354

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-03-18
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2021-06-25
  • 出版日期:

地址:江苏南京,宁六路219号,南京信息工程大学    邮编:210044

联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn    QQ交流群号:344646895

南京信息工程大学学报 ® 2021 版权所有  技术支持:北京勤云科技发展有限公司