Patent search ap:("上海华讯网络系统有限公司") AND inv:"吴镜峰" Page 1

1.

发明公开
基于OCR的表格文字识别方法及系统审中-实审

公开(公告)号：CN118747902A

公开(公告)日：2024-10-08

申请号：CN202410893313.8

申请日：2024-07-04

Applicant: 上海华讯网络系统有限公司

Inventor： 黄功勋 , 吴镜峰 , 王晓龙 , 安国成 , 张晏玮 , 王奉孝 , 段瑞杰 , 周楠

IPC: G06V30/412 , G06V30/413 , G06V10/28 , G06T7/13 , G06T7/155

Abstract: 本发明提供了一种基于OCR的表格文字识别方法和系统，包括：解析PDF文件，将PDF文件转换为图像数据；对图像数据进行版面分析，得到版面分析结果；判断是否存在表格元素；是，则保存坐标信息；否，则按照纯文本进行识别；基于深度学习网络，得出表格检测框数量与区域；寻找图像中的轮廓；得出表格检测框数量与区域；判断经前者得出的检测框数量与后者得出的检测框数量是否相等，是，则采用后者得出的检测框数量作为输入项；否，则采用检测框数量更多的结果作为输入项；返回每行的文本内容，得出结果数据。本发明进行页面的表格检测，检测出页面中存在的表格区域，为单元格检测和信息提取做准备；利用此方法可以提高表格检测的精度。

Patent Agency Ranking