-
公开(公告)号:CN117935270A
公开(公告)日:2024-04-26
申请号:CN202410124063.1
申请日:2024-01-30
Applicant: 厦门大学
IPC: G06V30/146 , G06V30/18 , G06V30/19 , G06V20/62 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开一种场景文本定位方法、装置、介质及产品,涉及文本定位技术领域,设计用于完成场景文本定位的训练好的场景文本定位模型包括依次连接的骨干网络、编码器、解码器和预测器,骨干网络包括依次连接的深度残差网络、特征金字塔网络和空洞处理器,预测器包括并联连接的文本长度预测头、文本位置预测头和文本内容预测头,通过设计骨干网络的具体结构,能够有效增强多尺度全局特征提取能力,后续只使用单一的解码器即可完成定位任务,且无需增加其它额外的预测任务进行强化监督,从而本发明可在降低模型后处理复杂度的同时提高模型定位精度,实现效果与效率的双提升。