一种PDF的表格信息提取方法及相关装置

    公开(公告)号:CN112069991B

    公开(公告)日:2024-08-09

    申请号:CN202010922836.2

    申请日:2020-09-04

    Abstract: 本申请公开了一种PDF的表格信息提取方法,包括:对PDF文件进行文字解析,得到文字和文字位置信息;通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理,得到矩形轮廓数组;根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理,得到表格信息。通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓,然后根据表格轮廓拼接出表格信息,提高了表格信息的提取效率,保证了提取效果。本申请还公开了一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质,具有以上有益效果。

    一种PDF的表格信息提取方法及相关装置

    公开(公告)号:CN112069991A

    公开(公告)日:2020-12-11

    申请号:CN202010922836.2

    申请日:2020-09-04

    Abstract: 本申请公开了一种PDF的表格信息提取方法,包括:对PDF文件进行文字解析,得到文字和文字位置信息;通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理,得到矩形轮廓数组;根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理,得到表格信息。通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓,然后根据表格轮廓拼接出表格信息,提高了表格信息的提取效率,保证了提取效果。本申请还公开了一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质,具有以上有益效果。

Patent Agency Ranking