文档内容识别方法及装置
    31.
    发明公开

    公开(公告)号:CN113988011A

    公开(公告)日:2022-01-28

    申请号:CN202110951502.2

    申请日:2021-08-19

    Abstract: 本公开属于核电技术领域,具体涉及一种文档内容识别方法及装置。本公开根据核电厂的编码特性,设计了一种基于正则匹配的预设编码查找的方法。此方法能快速遍历文档文本内容,查找出文档中所有预设编码。本公开设计了一种基于编码库和编码位置系数的相似度匹配方法,通过编码位置系数的计算将预设编码与编码库中编码库进行相似度匹配,能在高召回率的基础上,以高准确率筛选出符合期望的预设编码。解决核电厂不同类型文档中关键编码的高准确率自动识别和提取的问题。

Patent Agency Ranking