一种文档结构化信息提取方法
    1.
    发明公开

    公开(公告)号:CN117197603A

    公开(公告)日:2023-12-08

    申请号:CN202210601232.7

    申请日:2022-05-30

    Inventor: 赵志诚 侯朝晖

    Abstract: 本发明提供了一种文档结构化识别方法。所述方法包括:收集所需提取版面的文档,对文档进行简单的标注,同时对模型进行训练;将文档拍照,对其进行文字检测与文字识别,获取文字位置信息与文字内容信息;将获得的文本信息输入到多模态神经网络,融合文本的语义信息和文字位置信息,提取得到不同模态的特征;将所述不同模态的特征进行自适应加权融合,分析出每一个文字所属的结构化类别属性;将结构化类别属性一致的文字进行整理,分别获得不同类型下的文字集合;将不同类别下的文字信息进行整理,获得文档中的结构化分析数据;整理获得最终的结构化识别结果。本发明可以保证检测精度,减少大批量处理文档所需的人力物力。

Patent Agency Ranking