-
公开(公告)号:CN113784199B
公开(公告)日:2022-09-13
申请号:CN202111060036.5
申请日:2021-09-10
Applicant: 中国科学院计算技术研究所
IPC: H04N21/435 , H04N21/44 , G06V20/40 , G06F16/74
Abstract: 本发明提供的一种用于生成视频描述文本的系统,包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;以及字幕生成模块,用于对视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中,生成的描述文本不仅更加具有视觉准确性和视觉一致性,前后文本更加连贯。
-
公开(公告)号:CN112100410A
公开(公告)日:2020-12-18
申请号:CN202010810819.X
申请日:2020-08-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于语义条件关联学习的跨模态检索方法及系统,本发明将多标签信息作为一种新的观测模态,并基于深度神经网络将多标签语义关系有效整合到跨模态隐含表示学习框架中。一方面,通过标签语义信息指导各模态的特征学习过程,获得保持语义关系且具有判别力的深度特征表示,提高了跨模态检索的性能。另一方面,利用深度网络挖掘多标签数据中的高层语义,利用条件关联学习方法最大化不同模态特征关于高层语义的典型相关性,可以从各模态数据中消除共享语义信息,建立不同模态间的直接关联关系,从而有效降低噪声标签对跨模态隐含表示的影响。
-
公开(公告)号:CN107657008B
公开(公告)日:2020-11-03
申请号:CN201710874222.X
申请日:2017-09-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/48 , G06F16/432 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度判别排序学习的跨媒体训练方法,包括以下步骤:利用深度网络对训练集合中的图像样本和语句样本提取特征,并获得特征向量对;其中,所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量;将获得的特征向量对映射到共同空间,并计算所述图像特征向量与所述语句特征向量的相似度;利用双向判别排序目标函数对所述特征向量对进行排序,并获得训练模型。
-
公开(公告)号:CN104239398B
公开(公告)日:2017-11-21
申请号:CN201410312913.7
申请日:2014-07-02
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于密集子图的视觉词典生成方法,包括:密集子图检测步骤用于在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;视觉词典生成步骤用于通过检测到的密集子图获取组成视觉词典的视觉单词,视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。本发明还公开了一种基于密集子图的视觉词典生成系统。
-
-
-