一种文档图像几何校正方法、系统、装置及介质

    公开(公告)号:CN114418869B

    公开(公告)日:2024-08-13

    申请号:CN202111584077.4

    申请日:2021-12-22

    Abstract: 本发明公开了一种文档图像几何校正方法、系统、装置及介质,其中方法包括:获取第一文档图像,对第一文档图像中的像素进行分类,区分文档图像中前景文档区域和环境边界区域,获取前景文档区域的掩膜图;在掩模图上提取控制点,根据控制点对第一文档图像进行初步矫正,删除环境边界,获得初步矫正并删除环境边界的第二文档图像;获取第二文档图像的第一坐标偏移矩阵,根据第一坐标偏移矩阵对第二文档图像进行偏移后,获得矫正后的第三文档图像。本发明能够处理具有不同环境边界区域的拍摄文档图像,包括具有较小的环境边界区域、具有较大的环境边界区域或者不具有环境边界区域的情况。本发明可广泛应用于模式识别与人工智能技术领域。

    一种基于多尺度特征的场景文本识别方法

    公开(公告)号:CN111967471A

    公开(公告)日:2020-11-20

    申请号:CN202010841752.6

    申请日:2020-08-20

    Abstract: 本发明公开一种基于多尺度特征的场景文本识别方法,包括:获取场景文本图像数据集,并对场景文本图像数据集中的图像数据进行尺寸调整;构建文本识别模型,并利用尺寸调整后的场景文本图像数据集对文本识别模型进行训练;文本识别模型包括多尺度特征编码模块、多层注意力机制解码模块;多尺度特征编码模块用于获取若干个尺度的字符特征,多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合,得到场景文本中的字符识别结果;采集待识别场景文本图像,将场景文本图像调整到统一尺寸后输入训练好的文本识别模型,完成场景文本中多尺度字符的识别。本发明能够对场景文本中的多尺度字符进行快速准确识别。

    基于残差卷积和递归神经网络的中文场景文本行识别方法

    公开(公告)号:CN109948714B

    公开(公告)日:2022-11-29

    申请号:CN201910221267.6

    申请日:2019-03-22

    Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。

    一种文档图像几何校正方法、系统、装置及介质

    公开(公告)号:CN114418869A

    公开(公告)日:2022-04-29

    申请号:CN202111584077.4

    申请日:2021-12-22

    Abstract: 本发明公开了一种文档图像几何校正方法、系统、装置及介质,其中方法包括:获取第一文档图像,对第一文档图像中的像素进行分类,区分文档图像中前景文档区域和环境边界区域,获取前景文档区域的掩膜图;在掩模图上提取控制点,根据控制点对第一文档图像进行初步矫正,删除环境边界,获得初步矫正并删除环境边界的第二文档图像;获取第二文档图像的第一坐标偏移矩阵,根据第一坐标偏移矩阵对第二文档图像进行偏移后,获得矫正后的第三文档图像。本发明能够处理具有不同环境边界区域的拍摄文档图像,包括具有较小的环境边界区域、具有较大的环境边界区域或者不具有环境边界区域的情况。本发明可广泛应用于模式识别与人工智能技术领域。

    基于残差卷积和递归神经网络的中文场景文本行识别方法

    公开(公告)号:CN109948714A

    公开(公告)日:2019-06-28

    申请号:CN201910221267.6

    申请日:2019-03-22

    Abstract: 本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。

    基于序列变换纠正及注意力机制的自然场景文本识别方法

    公开(公告)号:CN111428727A

    公开(公告)日:2020-07-17

    申请号:CN202010227200.6

    申请日:2020-03-27

    Abstract: 本发明公开一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括数据获取、数据处理、标签制作、训练网络、测试网络;所述训练网络包括:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器。本发明极大降低了识别模型的识别难度,识别准确率高、鲁棒性强,针对形状不规则的文本具有很好的识别性能。

    一种基于二维特征注意力机制的自然场景文本识别方法

    公开(公告)号:CN110378334A

    公开(公告)日:2019-10-25

    申请号:CN201910516931.X

    申请日:2019-06-14

    Abstract: 本发明公开了一种基于二维特征注意力机制的自然场景文本识别方法,包括如下步骤:1数据获取:使用公开的代码合成用以训练的行文本图片,按形状划分为规则训练集和不规则训练集,并从网上下载真实拍摄的文本图片作为测试数据;2数据处理:对图片的大小进行拉伸操作,处理后图片的尺寸为32*104;3标签制作:采用有监督的方法来训练识别模型,每张行文本图片都有对应的文本内容;4训练网络:用训练集中的数据训练识别网络;5测试网络:输入测试数据到已训练网络中获取行文本图片的预测结果。本发明利用注意力网络实现了从图片的二维特征中解码出字符,识别准确率在公开的数据集上达到了较高的水平,具有极高的实用性和应用价值。

    基于语义相关度预测和注意力解码的场景文本识别方法

    公开(公告)号:CN110717336A

    公开(公告)日:2020-01-21

    申请号:CN201910898753.1

    申请日:2019-09-23

    Abstract: 本发明公开了一种基于语义相关度预测和注意力解码的场景文本识别方法,包括:S1,数据获取:获取合成训练数据集、真实评测数据集及常用词根统计表;所述常用词根统计表作为语义指导;S2,数据处理:将所述合成训练数据集和真实评测数据集进行拉伸变换至统一规范;S3,深度神经网络模型训练,S4,场景文本识别:将待识别的场景文本图像输入到深度神经网络模型,深度神经网络模型对待识别的场景文本图像进行精确识别,并返回一串字符作为识别结果。本发明的语义相关度预测模块以词根统计表为语义指导为语义注意力机制提供更加准确的高阶先验信息引导,学习得到的参数更能适应真实场景文本的图像特点,识别准确率更高。

    基于序列变换纠正及注意力机制的自然场景文本识别方法

    公开(公告)号:CN111428727B

    公开(公告)日:2023-04-07

    申请号:CN202010227200.6

    申请日:2020-03-27

    Abstract: 本发明公开一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括数据获取、数据处理、标签制作、训练网络、测试网络;所述训练网络包括:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器。本发明极大降低了识别模型的识别难度,识别准确率高、鲁棒性强,针对形状不规则的文本具有很好的识别性能。

Patent Agency Ranking