表格信息提取方法、电子设备及存储介质

    公开(公告)号:CN116071766A

    公开(公告)日:2023-05-05

    申请号:CN202111289229.8

    申请日:2021-11-02

    Abstract: 本发明提供了一种表格信息提取方法,所述方法包括:获取文档中的多个文本块和多个线条;将预设的表头字段集合与所述文本块进行字符匹配,确定表格的表头区域;根据所述表头区域和所述线条,确定所述表格的内容区域;对所述表头区域中的文本块进行分割,得到多个表头列名;对所述内容区域中的文本块进行分割,得到与所述表头列名对应的记录;根据所述表头列名和所述表头列名对应的所述记录,生成结构化数据。本发明实施例通过解析文档得到文本块和线条,根据预设的表头字段集合和文本块确定表头区域,根据表头和线条确定表格内容,并对表格内容进行分割,得到并生成结构化的表格记录。

Patent Agency Ranking