基于深度学习的多语种马赛克图像文本识别方法

    公开(公告)号:CN116682120A

    公开(公告)日:2023-09-01

    申请号:CN202310524256.1

    申请日:2023-05-08

    Abstract: 本发明受人类视觉皮层观察‑练习‑完善的识别过程,提出了一种马赛克文字识别方法:采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对;首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征;然后通过重建模块对图像初步恢复;受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程,由视觉自注意力模块预测像素值;最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化;通过反向传播优化权重参数;由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。

    基于可插拔模块的深度学习语音辅助文字识别方法与装置

    公开(公告)号:CN116434732A

    公开(公告)日:2023-07-14

    申请号:CN202310111405.1

    申请日:2023-02-07

    Abstract: 本发明提出了一种基于可插拔模块的深度学习语音辅助文字识别方法:使用公开合成文本数据集作为图片训练数据,并提取出标签作为语料库,使用语音合成工具配对生成一定数量的语音数据;将图片‑语音数据送入识别网络中,分别得到图像特征和语音特征;将图像特征送入识别解码器,输出预测的字符序列;将可插拔模块接入场景文字识别网络,图像特征和语音特征经过可插拔模块中的语音解码器得到频谱特征;识别网络计算识别损失,可插拔模块计算语音频谱损失,反向传播优化识别网络权重参数;将可插拔模块拔出,由识别网络完成场景文字图像的识别。本发明使用语音信息以指导现有的场景文本识别网络,使其可以很容易的应用于现有的场景文字识别网络。

Patent Agency Ranking