一种基于视觉语言模型的图像变化描述方法

    公开(公告)号:CN118918336A

    公开(公告)日:2024-11-08

    申请号:CN202310507784.6

    申请日:2023-05-08

    Abstract: 本发明公开了一种基于视觉语言模型的图像变化描述方法,包括以下步骤:1)网络输入为变化前图像、变化后图像以及描述该变化的一段文本,将该文本转化为特征向量作为视觉语言模型的第一个输入;2)变化前图像和变化后图像经过特征提取初步提取特征,并将两幅图像对应的特征输入视点编码模块;3)经过视点编码模块的图像特征随后输入变化编码模块,得到不同点增强后的图像特征;4)两幅图像不同点增强后的图像特征作为视觉语言模型的第二、三个输入,训练视觉语言模型;5)对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入视觉语言模型,预测输出图像A、B的变化描述信息。

    一种基于频域滤波处理的自然场景下阴影识别检测方法

    公开(公告)号:CN112257766B

    公开(公告)日:2023-09-29

    申请号:CN202011109331.0

    申请日:2020-10-16

    Abstract: 本发明公开了一种基于频域滤波处理的自然场景下阴影识别检测方法,其步骤包括:1)频域选择模块对数据集中的图片进行处理,为对应图片构造频域范围内的人工特征低频图;所述数据集包含多个图片及其二值掩模图;2)基于UNet网络构造阴影检测网络,所述阴影检测网络的损失函数包含用于计算生成图片与对应二值掩膜图的相似度的Dice损失函数;3)利用各图片及其对应的人工特征低频图、二值掩膜图对所述阴影检测网络进行训练;4)将待检测图片输入训练后的阴影检测网络,检测得到该待检测图片的阴影。本发明大大提高了阴影检测的准确性。

    一种在自然场景图像中对中文关键词及上下文的提取方法

    公开(公告)号:CN109635808B

    公开(公告)日:2023-01-17

    申请号:CN201811294643.6

    申请日:2018-11-01

    Abstract: 本发明公开一种在自然场景图像中对中文关键词及上下文的提取方法,步骤包括:准备一个合适的中文数据集及物体检测分类模型,调整现有标注,对中文逐一文字进行标注;对图片进行中文文字检测,基于物体检测分类模型,将中文文字作为不同类别进行检测分类将;通过计算自定义的匹配系数,从物体检测分类结果中提取关键词,通过不断更新锚点关键词和生成候选直线的方式提取上下文信息。本发明在中文文字关键词及上下文识别上有高精度高召回的效果。

    基于注意力数据增强的网络数据监督细粒度图像识别方法

    公开(公告)号:CN115588111A

    公开(公告)日:2023-01-10

    申请号:CN202211065663.2

    申请日:2022-09-01

    Abstract: 本发明公开了一种基于注意力数据增强的网络数据监督细粒度图像识别方法,其步骤包括:1)采用图像的细粒度类别作为关键词在网络上检索图像,根据图像对应细粒度类别生成样本图像,利用各样本图像对细粒度图像识别模型进行热身训练;2)选取一组所述样本图像分别输入热身训练后的细粒度图像识别模型,得到每一样本图像对应的类别激活图;3)根据样本图像的类别激活图生成对应样本图像的注意力图;4)随机选取两张样本图像,根据其注意力图对图像及标签进行混合,得到增强后的样本图像;5)使用数据增强后的样本图像训练细粒度图像识别模型;6)利用训练后的细粒度图像识别模型对待识别图像进行识别,得到该待识别图像中的细粒度类别。

    一种基于交替迭代优化的场景图生成装置和方法

    公开(公告)号:CN115439729A

    公开(公告)日:2022-12-06

    申请号:CN202210944619.2

    申请日:2022-08-08

    Abstract: 本发明属于计算机视觉技术领域,公开了一种基于交替迭代优化的场景图生成装置和方法,包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块。该方法通过设计关系敏感的消息传递网络,充分利用图像中的上下文信息优化物体特征,并交替迭代优化模型的物体识别与关系识别能力,实现高精度场景图生成。相比传统方法,该方法解决了上下文信息缺失的问题并缓解了模型架构的错误传递问题。同时,由于避免了对物体与物体、物体与关系的共同出现频率的统计信息的利用,降低了模型训练后对特定数据集的依赖性。综上所述,对于自然场景图像,本发明通过对上下文的充分利用与对模型中不同部分的交替迭代优化,生成高精度的场景图预测结果。

    一种基于颜色统计差异的染色伪造图像检测方法

    公开(公告)号:CN107103327B

    公开(公告)日:2020-10-16

    申请号:CN201710382747.1

    申请日:2017-05-26

    Abstract: 本发明提供一种基于颜色统计差异的染色伪造图像检测方法,该方法首先构建训练图像集的统计分布图以及训练图像集中所有训练图像的统计分布图;之后根据差异最大化原则,基于上述训练图像集的统计分布图计算检测特征参数,基于所述检测特征参数计算每幅训练图像的统计分布图,并计算每幅训练图像的统计分布图的分布特性,从而构建训练图像的有效的完整检测特征;最后利用训练图像的完整检测特征和对应的训练图像标签训练分类器,从而得到有效的检测分类器,即可针对待检测图像提取其完整检测特征,从而利用训练好的检测分类器进行检测。

    一种基于深度学习的自然场景下文字检测定位方法

    公开(公告)号:CN107346420B

    公开(公告)日:2020-02-11

    申请号:CN201710463101.6

    申请日:2017-06-19

    Abstract: 本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R‑CNN的RPN(多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。

Patent Agency Ranking