一种修正误判的图像内容识别方法

    公开(公告)号:CN106778852A

    公开(公告)日:2017-05-31

    申请号:CN201611115016.2

    申请日:2016-12-07

    Inventor: 操晓春 荆丽桦

    CPC classification number: G06K9/6267 G06K9/6256

    Abstract: 本发明公开一种修正误判的图像内容识别方法。该方法包括:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用Faster R‑CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到Faster R‑CNN网络;3)利用训练得到的Faster R‑CNN网络,识别待检测图像中的特定物体。其中步骤1)通过对样本进行拉伸、加噪扩展数据集,也可采用其它方式;步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。本发明能显著减少模型误判,提高图像内容识别的精度。

    一种基于视觉语言模型的图像变化描述方法

    公开(公告)号:CN118918336A

    公开(公告)日:2024-11-08

    申请号:CN202310507784.6

    申请日:2023-05-08

    Abstract: 本发明公开了一种基于视觉语言模型的图像变化描述方法,包括以下步骤:1)网络输入为变化前图像、变化后图像以及描述该变化的一段文本,将该文本转化为特征向量作为视觉语言模型的第一个输入;2)变化前图像和变化后图像经过特征提取初步提取特征,并将两幅图像对应的特征输入视点编码模块;3)经过视点编码模块的图像特征随后输入变化编码模块,得到不同点增强后的图像特征;4)两幅图像不同点增强后的图像特征作为视觉语言模型的第二、三个输入,训练视觉语言模型;5)对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入视觉语言模型,预测输出图像A、B的变化描述信息。

    基于注意力数据增强的网络数据监督细粒度图像识别方法

    公开(公告)号:CN115588111A

    公开(公告)日:2023-01-10

    申请号:CN202211065663.2

    申请日:2022-09-01

    Abstract: 本发明公开了一种基于注意力数据增强的网络数据监督细粒度图像识别方法,其步骤包括:1)采用图像的细粒度类别作为关键词在网络上检索图像,根据图像对应细粒度类别生成样本图像,利用各样本图像对细粒度图像识别模型进行热身训练;2)选取一组所述样本图像分别输入热身训练后的细粒度图像识别模型,得到每一样本图像对应的类别激活图;3)根据样本图像的类别激活图生成对应样本图像的注意力图;4)随机选取两张样本图像,根据其注意力图对图像及标签进行混合,得到增强后的样本图像;5)使用数据增强后的样本图像训练细粒度图像识别模型;6)利用训练后的细粒度图像识别模型对待识别图像进行识别,得到该待识别图像中的细粒度类别。

Patent Agency Ranking