一种基于多尺度特征的场景文本识别方法

    公开(公告)号:CN111967471A

    公开(公告)日:2020-11-20

    申请号:CN202010841752.6

    申请日:2020-08-20

    Abstract: 本发明公开一种基于多尺度特征的场景文本识别方法,包括:获取场景文本图像数据集,并对场景文本图像数据集中的图像数据进行尺寸调整;构建文本识别模型,并利用尺寸调整后的场景文本图像数据集对文本识别模型进行训练;文本识别模型包括多尺度特征编码模块、多层注意力机制解码模块;多尺度特征编码模块用于获取若干个尺度的字符特征,多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合,得到场景文本中的字符识别结果;采集待识别场景文本图像,将场景文本图像调整到统一尺寸后输入训练好的文本识别模型,完成场景文本中多尺度字符的识别。本发明能够对场景文本中的多尺度字符进行快速准确识别。

    基于残差卷积和递归神经网络的中文场景文本行识别方法

    公开(公告)号:CN109948714B

    公开(公告)日:2022-11-29

    申请号:CN201910221267.6

    申请日:2019-03-22

    Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。

    基于残差卷积和递归神经网络的中文场景文本行识别方法

    公开(公告)号:CN109948714A

    公开(公告)日:2019-06-28

    申请号:CN201910221267.6

    申请日:2019-03-22

    Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。

    一种基于生成对抗网络的手写文字擦除方法

    公开(公告)号:CN117132994B

    公开(公告)日:2024-07-02

    申请号:CN202311039086.4

    申请日:2023-08-17

    Abstract: 本申请公开了一种基于生成对抗网络的手写文字擦除方法,步骤包括:收集带有手写文字的文档图像,并对文档进行人工标注,得到数据集;基于数据集,生成手写文字笔画掩码;对文档图像进行预处理,得到处理后数据;根据手写文字笔画掩码搭建基于生成对抗网络的手写文字擦除模型;利用处理后数据对手写文字擦除模型进行训练,得到最终模型;利用最终模型擦除文档图像中的手写文字部分。本申请利用深度学习网络对文档图像进行特征提取,通过预测手写文字的笔画精确定位需要擦除的区域,采用级联的生成对抗网络对手写文字进行擦除,具有实现简单、速度快、擦除效果好等优点。

    一种基于注意力机制的文本行单字分割方法

    公开(公告)号:CN110399879A

    公开(公告)日:2019-11-01

    申请号:CN201910517862.4

    申请日:2019-06-14

    Abstract: 本发明公开一种基于注意力机制的文本行单字分割方法,包括收集文本行训练图像;对图像的尺寸做归一化;对训练图像做数据增广;创建基于注意力机制的文本行识别网络;通过大量训练数据训练得到识别模型;将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果;本发明注意力机制中的权重概率分布,在识别文本行内容的同时,能够将文本行中的单字分割出来,并且只需要标注文本内容,而不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。

    一种中文OCR纠错后处理方法、系统、装置及存储介质

    公开(公告)号:CN117315688A

    公开(公告)日:2023-12-29

    申请号:CN202311208092.8

    申请日:2023-09-18

    Abstract: 本发明公开了一种中文OCR纠错后处理方法、系统、装置及存储介质,属于OCR纠错后处理、语言模型、机器翻译技术领域。其中方法包括:收集语料和单字样本,通过语料拼接单字样本来合成脱机的文本行图片;构建并训练文本识别模型;采用训练后的文本识别模型对所述文本行图片进行识别,获得识别结果;将识别获得的OCR识别文本和文本标签作为一个样本,构建训练集;构建基于非自回归序列生成的纠错模型,采用所述训练集对纠错模型进行训练;获取待处理的OCR识别文本,并输入训练后的纠错模型,获得纠错后的文本。本发明具有实现简单、推理速度快、纠错效果好等优点。

    一种基于SVD和剪枝用于深度循环神经网络的压缩方法

    公开(公告)号:CN110533157A

    公开(公告)日:2019-12-03

    申请号:CN201810503382.8

    申请日:2018-05-23

    Abstract: 本发明涉及一种基于SVD和剪枝用于深度循环神经网络的压缩方法,包括步骤:S1:对需要压缩的循环神经网络进行SVD分解;S2:对SVD分解之后的网络进行再训练,逐步移除冗余的连接;S3:对网络各层剩余连接的权值分别进行K-means聚类;S4:对聚类后的网络进行再训练;S5:对网络权值进行编码保存。本发明结合了SVD和移除冗余网络连接的方法,有效地减少循环神经网络参数的数量,通过进一步的K-means聚类以及对稀疏矩阵的编码存储,大大降低了参数的存储量,在这一系列过程中同时结合了对网络的训练,保证了在网络性能影响不大的情况下实现较大的压缩倍数。

    一种基于交叉注意力机制的自然场景文本识别方法

    公开(公告)号:CN110414498A

    公开(公告)日:2019-11-05

    申请号:CN201910517855.4

    申请日:2019-06-14

    Abstract: 本发明公开一种基于交叉注意力机制的自然场景文本识别方法,包括数据获取:下载自然场景下的样本图片,并对所述图片使用公开的代码合成训练集;数据处理:对所有训练样本图片的大小进行拉伸操作,处理后样本图片的大小为32*100,高宽比例与原图保持一致,不足的部分使用黑边填充;标签制作:采用有监督的方法来训练识别模型,所以每张行文本图片都有对应的文本信息;训练网络:把准备好的训练图片数据及标签输入到交叉注意力网络中训练,交叉注意力网络由垂直注意力网络和水平注意力网络组成;输入测试数据到已训练网络中,最后得到识别结果和预测每个字符的置信度。本发明识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。

    基于全卷积递归神经网络的水表圆盘区域检测方法

    公开(公告)号:CN106682664A

    公开(公告)日:2017-05-17

    申请号:CN201611114543.1

    申请日:2016-12-07

    CPC classification number: G06K9/2054 G06N3/04

    Abstract: 本发明公开了基于全卷积递归神经网络的水表圆盘区域检测方法,包括步骤:获取水表图像,标注水表图像上的水表圆盘区域外界矩形框,获取水表圆盘区域外界矩形框的标注信息;构建全卷积递归神经网络,提取水表图像的多通道特征图;使用滑动窗口扫描多通道特征图,筛选出表盘区域候选窗;提取表盘区域候选窗位置的相应位置特征,获取最终目标检测结果;利用表盘区域候选窗损失及最终目标损失,更新全卷积递归神经网的参数。本发明利用深度学习中的全卷积递归神经网络,自动提取水表圆盘特征,解决了复杂背景下水表圆盘区域检测的问题,将识别出圆盘的位置进一步作为水表读数识别的输入,大大提高了水表读数识别的识别率。

Patent Agency Ranking