一种提取PDF中多类型表格的方法
    1.
    发明公开

    公开(公告)号:CN118196814A

    公开(公告)日:2024-06-14

    申请号:CN202410225616.2

    申请日:2024-02-29

    Abstract: 本发明公开了PDF表格提取技术领域的一种提取PDF中多类型表格的方法,该提取PDF中多类型表格的方法包括如下步骤:S1:对PDF文档进行解析处理,获取图像数据,所述步骤S1中的具体步骤如下:A1:对PDF文档按页码依次进行解析处理,获取每一页的图像数据;S2:通过图像处理软件对保存了的图像数据进行处理,提取表格;S3:通过文本识别模型对表格中的文本进行识别,提取文本信息;S4:将文本信息填充到表格信息内并转换为Excel文件或者Word文件,该种提取PDF中多类型表格的方法,通过图像处理软件以及文本识别模型对PDF中的表格进行提取,并将提取的表格转换为Excel文件或者Word文件,便于对表格中的内容进行查找以及修改。

Patent Agency Ranking