-
公开(公告)号:CN117151225A
公开(公告)日:2023-12-01
申请号:CN202311042747.9
申请日:2023-08-18
Applicant: 中国科学院计算技术研究所
IPC: G06N5/04 , G06N3/0455 , G06N3/042 , G06N3/0495 , G06N3/082 , G06V10/70 , G06V10/82 , G06F16/332 , G06F16/36 , G06N5/022 , G06F40/30
Abstract: 本发明提供了一种基于路径推理的开放视觉问答的系统,包括:模式图构建模块,用于根据输入的图像和针对该图像提出的问题文本,构建第二模式图;剪枝网络,包括节点编码器和剪枝层,节点编码器,用于根据图像、问题文本以及各个节点的类型提取节点的嵌入向量;剪枝层,用于对第二模式图进行剪枝,得到第三模式图;路径推理网络,包括路径编码器、双线性层和输出层,路径编码器确定候选推理路径的嵌入向量,双线性层,用于确定各候选推理路径的嵌入向量与多模态上下文特征的匹配概率,输出层,用于根据各候选推理路径对应的匹配概率确定推理结果。
-
公开(公告)号:CN109284414B
公开(公告)日:2020-12-04
申请号:CN201811156579.5
申请日:2018-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06F16/532 , G06F16/33 , G06F16/901 , G06F40/30
Abstract: 本发明涉及一种基于语义保持的跨模态内容检索方法,包括:以第一模态样本和第二模态样本的特征向量为结点分别构建第一特征图和第二特征图;提取所有样本的标签向量为结点构建语义图;获取每个结点的邻居结点;分别构建用于将第一模态样本和第二模态样本映射为隐含表示的第一映射函数和第二映射函数;对映射函数进行学习,近似最大化每个结点的邻居结点出现的似然,并使得每个隐含表示可以重建对应结点对应的标签信息;以第一映射函数将检索样本映射为检索隐含表示,并以第二映射函数将每个第二模态样本映射为目标隐含表示;获取检索隐含表示与每个目标隐含表示的距离,以所有小于检索阈值的距离对应的第二模态样本为检索结果。
-
公开(公告)号:CN110727768A
公开(公告)日:2020-01-24
申请号:CN201911017584.2
申请日:2019-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于SARN的候选回答语句生成和自然语言选择方法及系统,所述SARN模型包括编码网络和解码网络,所述生成方法包括:利用所述编码网络获得输入语句特征;基于所述输入语句特征,利用所述解码网络获得对应的候选回答语句;其中,所述解码网络采用了随机隐变量因子针对所述候选回答语句的多样性进行建模。
-
公开(公告)号:CN103324954B
公开(公告)日:2017-02-08
申请号:CN201310214553.2
申请日:2013-05-31
Applicant: 中国科学院计算技术研究所
IPC: G06K9/66
Abstract: 本发明公开了一种基于树结构的图像分类方法及其系统,其中该方法包括:步骤一,提供具有标签信息的样本集合,以及根据标签信息的语义相关性构建的语义树结构;步骤二,根据该样本集合与该语义树结构,通过模型训练得到一组有监督的码本和分类器模型;步骤三,对于测试图像,利用训练得到的有监督的码本组生成多个中间层特征表示,根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。本发明克服了现有码本(特征)学习不能有效应对海量类别的分类问题。
-
公开(公告)号:CN103995804A
公开(公告)日:2014-08-20
申请号:CN201410203087.2
申请日:2014-05-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法、装置,其中该方法包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。
-
公开(公告)号:CN113407794A
公开(公告)日:2021-09-17
申请号:CN202110608491.8
申请日:2021-06-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9032 , G06F30/27 , G06N20/00
Abstract: 一种用于抑制语言偏差的贪心梯度集成方法,其特征在于,包括下列步骤:将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。
-
公开(公告)号:CN103324954A
公开(公告)日:2013-09-25
申请号:CN201310214553.2
申请日:2013-05-31
Applicant: 中国科学院计算技术研究所
IPC: G06K9/66
Abstract: 本发明公开了一种基于树结构的图像分类方法及其系统,其中该方法包括:步骤一,提供具有标签信息的样本集合,以及根据标签信息的语义相关性构建的语义树结构;步骤二,根据该样本集合与该语义树结构,通过模型训练得到一组有监督的码本和分类器模型;步骤三,对于测试图像,利用训练得到的有监督的码本组生成多个中间层特征表示,根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。本发明克服了现有码本(特征)学习不能有效应对海量类别的分类问题。
-
公开(公告)号:CN113407794B
公开(公告)日:2023-10-31
申请号:CN202110608491.8
申请日:2021-06-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9032 , G06F30/27 , G06N20/00
Abstract: 一种用于抑制语言偏差的贪心梯度集成方法,其特征在于,包括下列步骤:将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。
-
公开(公告)号:CN113327268A
公开(公告)日:2021-08-31
申请号:CN202110577016.9
申请日:2021-05-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种自约束视频活动预测方法和系统。包括:提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果。本发明通过迭代预测提高了活动预测的准确性。
-
公开(公告)号:CN104239398A
公开(公告)日:2014-12-24
申请号:CN201410312913.7
申请日:2014-07-02
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30271 , G06F17/3087
Abstract: 本发明公开了一种基于密集子图的视觉词典生成方法,包括:密集子图检测步骤用于在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;视觉词典生成步骤用于通过检测到的密集子图获取组成视觉词典的视觉单词,视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。本发明还公开了一种基于密集子图的视觉词典生成系统。
-
-
-
-
-
-
-
-
-