一种融合语言信息的低资源语种OCR方法

    公开(公告)号:CN113420766A

    公开(公告)日:2021-09-21

    申请号:CN202110756557.8

    申请日:2021-07-05

    Inventor: 冯冲 滕嘉皓

    Abstract: 本发明所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。

    一种融合语言信息的低资源语种OCR方法

    公开(公告)号:CN113420766B

    公开(公告)日:2022-09-16

    申请号:CN202110756557.8

    申请日:2021-07-05

    Inventor: 冯冲 滕嘉皓

    Abstract: 本发明所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。

Patent Agency Ranking