-
公开(公告)号:CN114022687B
公开(公告)日:2024-05-10
申请号:CN202111120908.2
申请日:2021-09-24
Applicant: 之江实验室 , 中国科学院信息工程研究所
IPC: G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08 , G06N3/049
Abstract: 本发明公开了一种基于增强学习的图像描述对抗生成方法,包括如下步骤:S1,根据待描述图像检索相似图像及其文本描述;S2,构建基于注意力机制的图像描述生成网络,在待描述图像生成文本时,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,得到生成的文本描述;S3,构建图像描述相似性配对判别网络;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据判别网络输出的奖励值,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,生成文本描述。
-
公开(公告)号:CN114022687A
公开(公告)日:2022-02-08
申请号:CN202111120908.2
申请日:2021-09-24
Applicant: 之江实验室 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于增强学习的图像描述对抗生成方法,包括如下步骤:S1,根据待描述图像检索相似图像及其文本描述;S2,构建基于注意力机制的图像描述生成网络,在待描述图像生成文本时,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,得到生成的文本描述;S3,构建图像描述相似性配对判别网络;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据判别网络输出的奖励值,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,生成文本描述。
-
公开(公告)号:CN114049513A
公开(公告)日:2022-02-15
申请号:CN202111120541.4
申请日:2021-09-24
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多学生讨论的知识蒸馏方法和系统。该方法的步骤包括:1)选取复杂网络ResNet32x4作为知识蒸馏的教师模型,对教师模型进行预训练;2)进行知识蒸馏,采用单老师多学生的蒸馏模式,多个小型学生网络的参数分别初始化并独立训练,分别学习来自教师网络的知识;3)借助讨论模块使得学生网络相互讨论,以各个学生模型的logits输出作为其输入,采用多层卷积神经网络,将各个学生网络的输出耦合在一起,输出最终的类别预测;4)将待分类的图像输入学生网络,再经过学生之间的讨论得到最终的图像分类结果。本发明大大提高了图像分类的准确率,并改善了知识蒸馏领域中师生模型表达能力差异较大的情况。
-
公开(公告)号:CN112257766A
公开(公告)日:2021-01-22
申请号:CN202011109331.0
申请日:2020-10-16
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于频域滤波处理的自然场景下阴影识别检测方法,其步骤包括:1)频域选择模块对数据集中的图片进行处理,为对应图片构造频域范围内的人工特征低频图;所述数据集包含多个图片及其二值掩模图;2)基于UNet网络构造阴影检测网络,所述阴影检测网络的损失函数包含用于计算生成图片与对应二值掩膜图的相似度的Dice损失函数;3)利用各图片及其对应的人工特征低频图、二值掩膜图对所述阴影检测网络进行训练;4)将待检测图片输入训练后的阴影检测网络,检测得到该待检测图片的阴影。本发明大大提高了阴影检测的准确性。
-
公开(公告)号:CN115705736A
公开(公告)日:2023-02-17
申请号:CN202110919126.9
申请日:2021-08-11
Applicant: 中国科学院信息工程研究所
IPC: G06V30/41 , G06V30/19 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06F40/295
Abstract: 本发明公开了一种基于深度注意力融合的图像描述生成方法,其步骤包括:1)提取样本图像中包含的实体,并提取所述实体的图像特征;2)创建一图像描述生成网络,其包括图像特征编码网络和图像描述解码网络;3)将每一样本对应的各图像特征输入图像特征编码网络,提取该样本图像的多层深度特征;将图像特征编码网络第i层自注意力变换层的输出特征输入图像描述解码网络的第i层LSTM,生成一文本特征,然后将该文本特征和第i‑1层预测文本生成第i层LSTM的预测文本并输入第i+1层LSTM;4)基于各样本的最终预测文本优化图像描述生成网络;5)将待生成描述的图像的特征输入图像描述生成网络,生成该图像的文字描述。
-
公开(公告)号:CN115601634A
公开(公告)日:2023-01-13
申请号:CN202110710190.6
申请日:2021-06-25
Applicant: 中国科学院信息工程研究所(CN)
IPC: G06V20/10 , G06V10/40 , G06V10/764 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于层次性注意力机制的图像叶片识别方法及装置,包括生成输入图像的不同层次类别激活图;将不同层次类别激活图融合成一注意力图,并利用该注意力图,得到若干张不同的采样图像;拼接各采样图像的特征向量与输入图像的特征向量,并基于得到的拼接特征向量,获取图像叶片识别结果。本发明基于人类植物学家的分类策略构造层次性注意力机制,并结合采样变换与深度学习方法,放大图片中的关键区域,可以取得很高的准确率。
-
公开(公告)号:CN118918336A
公开(公告)日:2024-11-08
申请号:CN202310507784.6
申请日:2023-05-08
Applicant: 中国科学院信息工程研究所
IPC: G06V10/40 , G06V10/774 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/047 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于视觉语言模型的图像变化描述方法,包括以下步骤:1)网络输入为变化前图像、变化后图像以及描述该变化的一段文本,将该文本转化为特征向量作为视觉语言模型的第一个输入;2)变化前图像和变化后图像经过特征提取初步提取特征,并将两幅图像对应的特征输入视点编码模块;3)经过视点编码模块的图像特征随后输入变化编码模块,得到不同点增强后的图像特征;4)两幅图像不同点增强后的图像特征作为视觉语言模型的第二、三个输入,训练视觉语言模型;5)对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入视觉语言模型,预测输出图像A、B的变化描述信息。
-
公开(公告)号:CN112257766B
公开(公告)日:2023-09-29
申请号:CN202011109331.0
申请日:2020-10-16
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于频域滤波处理的自然场景下阴影识别检测方法,其步骤包括:1)频域选择模块对数据集中的图片进行处理,为对应图片构造频域范围内的人工特征低频图;所述数据集包含多个图片及其二值掩模图;2)基于UNet网络构造阴影检测网络,所述阴影检测网络的损失函数包含用于计算生成图片与对应二值掩膜图的相似度的Dice损失函数;3)利用各图片及其对应的人工特征低频图、二值掩膜图对所述阴影检测网络进行训练;4)将待检测图片输入训练后的阴影检测网络,检测得到该待检测图片的阴影。本发明大大提高了阴影检测的准确性。
-
-
-
-
-
-
-