-
公开(公告)号:CN114077830B
公开(公告)日:2024-10-25
申请号:CN202010826082.0
申请日:2020-08-17
Applicant: 税友软件集团股份有限公司
IPC: G06F40/205
Abstract: 本申请公开了一种基于位置的PDF表格文档的解析方法,由于PDF官方规范支持告诉表格文档中具体字符串的位置,该方法首先通过文本提取确定PDF表格文档中每个字符串的位置信息,然后根据位置信息确定字符串与表格中单元格的对应关系,最终进行字符串填充,实现了将PDF表格文档解析为便于进行数据分析处理的表格形式。此外,本申请还提供了一种基于位置的PDF表格文档的解析装置、设备及可读存储介质,其技术效果与上述方法相对应。
-
公开(公告)号:CN114077830A
公开(公告)日:2022-02-22
申请号:CN202010826082.0
申请日:2020-08-17
Applicant: 税友软件集团股份有限公司
IPC: G06F40/205
Abstract: 本申请公开了一种基于位置的PDF表格文档的解析方法,由于PDF官方规范支持告诉表格文档中具体字符串的位置,该方法首先通过文本提取确定PDF表格文档中每个字符串的位置信息,然后根据位置信息确定字符串与表格中单元格的对应关系,最终进行字符串填充,实现了将PDF表格文档解析为便于进行数据分析处理的表格形式。此外,本申请还提供了一种基于位置的PDF表格文档的解析装置、设备及可读存储介质,其技术效果与上述方法相对应。
-
公开(公告)号:CN112069991B
公开(公告)日:2024-08-09
申请号:CN202010922836.2
申请日:2020-09-04
Applicant: 税友软件集团股份有限公司
IPC: G06V30/414 , G06F40/205 , G06V30/18
Abstract: 本申请公开了一种PDF的表格信息提取方法,包括:对PDF文件进行文字解析,得到文字和文字位置信息;通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理,得到矩形轮廓数组;根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理,得到表格信息。通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓,然后根据表格轮廓拼接出表格信息,提高了表格信息的提取效率,保证了提取效果。本申请还公开了一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质,具有以上有益效果。
-
公开(公告)号:CN112069991A
公开(公告)日:2020-12-11
申请号:CN202010922836.2
申请日:2020-09-04
Applicant: 税友软件集团股份有限公司
IPC: G06K9/00 , G06F40/205 , G06K9/46
Abstract: 本申请公开了一种PDF的表格信息提取方法,包括:对PDF文件进行文字解析,得到文字和文字位置信息;通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理,得到矩形轮廓数组;根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理,得到表格信息。通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓,然后根据表格轮廓拼接出表格信息,提高了表格信息的提取效率,保证了提取效果。本申请还公开了一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质,具有以上有益效果。
-
-
-