基于无锚框和提议框的场景文字检测方法

    公开(公告)号:CN112966690B

    公开(公告)日:2023-01-13

    申请号:CN202110237052.0

    申请日:2021-03-03

    Abstract: 本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。

    基于无锚框和提议框的场景文字检测方法

    公开(公告)号:CN112966690A

    公开(公告)日:2021-06-15

    申请号:CN202110237052.0

    申请日:2021-03-03

    Abstract: 本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。

Patent Agency Ranking