-
公开(公告)号:CN113963340A
公开(公告)日:2022-01-21
申请号:CN202111026162.9
申请日:2021-09-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。
-
公开(公告)号:CN112070114A
公开(公告)日:2020-12-11
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN113963340B
公开(公告)日:2024-07-19
申请号:CN202111026162.9
申请日:2021-09-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。
-
公开(公告)号:CN111753827B
公开(公告)日:2024-02-13
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V30/164 , G06V30/18 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
公开(公告)号:CN112070114B
公开(公告)日:2023-05-16
申请号:CN202010767079.6
申请日:2020-08-03
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06F40/30 , G06V30/19 , G06V10/82 , G06V30/18 , G06N3/0464 , G06N3/0442
Abstract: 本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
-
公开(公告)号:CN111753827A
公开(公告)日:2020-10-09
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
-
-
-
-