-
公开(公告)号:CN118887648A
公开(公告)日:2024-11-01
申请号:CN202410899366.0
申请日:2024-07-05
Applicant: 北京邮电大学
IPC: G06V20/62 , G06V30/18 , G06V30/186 , G06V30/19 , G06V10/82
Abstract: 本发明提供了一种基于自适应特征融合的图像场景文本检测方法。该方法包括:使用ResNet主干网络对待处理的场景文本图像进行多尺度特征(x2,x3,x4,x5)提取,使用特征金字塔网络对多尺度特征(x2,x3,x4,x5)进行初步的多尺度特征融合,输出经过融合的多尺度特征(o2,o3,o4,o5),并输入到特征混迭模块得到多尺度特征(p2,p3,p4,p5);将多尺度特征(p2,p3,p4,p5)进行拼接得到多尺度特征矩阵P;使用通道注意力模块对多尺度特征矩阵P进行自适应特征融合,得到经过融合的多尺度特征Q;对Q进行可微二值化后处理得到概率图和阈值图,根据概率图和阈值图得到待处理的场景文本图像中场景文本检测结果。本发明对多尺度特征从通道维度到空间维度进行特征混迭,有效提高了不同尺度特征的表达能力,提高了文本检测算法的性能。