针对形近汉字的图像优化识别系统

    公开(公告)号:CN113297892B

    公开(公告)日:2022-06-14

    申请号:CN202011358869.5

    申请日:2020-11-27

    Inventor: 罗艺康 李国强

    Abstract: 一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果,本发明针对近形字的笔画而不是局部的形态特征进行改进,使得增加的特征数量减少,通过BERT基线模型联合学习,使得识别过程更加简洁高效的同时明显提高识别正确率。

    针对形近汉字的图像优化识别系统

    公开(公告)号:CN113297892A

    公开(公告)日:2021-08-24

    申请号:CN202011358869.5

    申请日:2020-11-27

    Inventor: 罗艺康 李国强

    Abstract: 一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果,本发明针对近形字的笔画而不是局部的形态特征进行改进,使得增加的特征数量减少,通过BERT基线模型联合学习,使得识别过程更加简洁高效的同时明显提高识别正确率。

Patent Agency Ranking