一种基于多尺度特征融合和卷积注意力的商标检测与分类方法

    公开(公告)号:CN118314561A

    公开(公告)日:2024-07-09

    申请号:CN202410308856.9

    申请日:2024-03-18

    Abstract: 本发明公开了一种基于多尺度特征融合和卷积注意力的商标检测与分类算法。该算法模型包括:获取待检测商标图像;将待检测商标图像输入至监督学习机制的商标检测与分类模型中,进行图像的特征提取与Anchor Boxes设计,根据输出的生成结果来预测后续不同尺度目标的位置和大小;之后,根据不同尺度的目标框将特征图划分到不同的预测头,在预测头中计算并生成目标的类别概率、边界框的坐标信息及置信度等;在获得预测框后,应用非极大值抑制(NMS)算法来去除重叠较多的预测框,只保留置信度最高的目标框;最后在图像中绘制目标框并标记类别信息。相较传统的目标检测技术,本方法减少了漏检误检的情况,同时提高了检测的精度和效率。

    一种基于SwinTransformer的商标文本识别方法

    公开(公告)号:CN118230306A

    公开(公告)日:2024-06-21

    申请号:CN202410331309.2

    申请日:2024-03-21

    Abstract: 本发明涉及一种基于SwinTransformer的商标文本识别方法,首先获取一张商标文本图像,原始图像通过一个基于OTSU改进的FAST角点检测器来生成角点图,原始图像以及角点图分别通过一个带有金字塔(FPN)的SwinTransformer获取原始图像特征和角点图特征。原始图像特征通过自注意力机制学习图像的局部特征,然后通过交叉注意力机制与角点特征融合,以学习全局特征。编码器输出特征图,解码器则将该特征图放进softmax分类器进行文字预测,提取一系列字符。采用基于SwinTransformer作为骨干网络的特征提取器可以充分利用其先进的自注意力机制,更全面、准确地抽取关键的文本特征。引用角点查询机制,能够优先选择关键点区域,即文本中具有显著变化的位置,从而提高对重要特征的关注度。相对于其他自然场景的文本识别方法,本发明提高了在处理商标图像中变形字识别方面的鲁棒性。

Patent Agency Ranking