-
公开(公告)号:CN113361432A
公开(公告)日:2021-09-07
申请号:CN202110662868.8
申请日:2021-06-15
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于深度学习的视频文字端到端检测与识别的方法,属于视频文字处理技术领域。本发明的步骤包括:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果。本发明实现了视频文字端到端的检测与识别,规避了多模块目标不一致而导致误差累积等固有缺陷,减少了工程复杂度。还通过共享特征提取网络优化网络结构,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,提高了识别准确率。