基于语义保持的跨模态内容检索方法和系统

    公开(公告)号:CN109284414B

    公开(公告)日:2020-12-04

    申请号:CN201811156579.5

    申请日:2018-09-30

    Abstract: 本发明涉及一种基于语义保持的跨模态内容检索方法,包括:以第一模态样本和第二模态样本的特征向量为结点分别构建第一特征图和第二特征图;提取所有样本的标签向量为结点构建语义图;获取每个结点的邻居结点;分别构建用于将第一模态样本和第二模态样本映射为隐含表示的第一映射函数和第二映射函数;对映射函数进行学习,近似最大化每个结点的邻居结点出现的似然,并使得每个隐含表示可以重建对应结点对应的标签信息;以第一映射函数将检索样本映射为检索隐含表示,并以第二映射函数将每个第二模态样本映射为目标隐含表示;获取检索隐含表示与每个目标隐含表示的距离,以所有小于检索阈值的距离对应的第二模态样本为检索结果。

    一种基于树结构的图像分类方法及其系统

    公开(公告)号:CN103324954B

    公开(公告)日:2017-02-08

    申请号:CN201310214553.2

    申请日:2013-05-31

    Abstract: 本发明公开了一种基于树结构的图像分类方法及其系统,其中该方法包括:步骤一,提供具有标签信息的样本集合,以及根据标签信息的语义相关性构建的语义树结构;步骤二,根据该样本集合与该语义树结构,通过模型训练得到一组有监督的码本和分类器模型;步骤三,对于测试图像,利用训练得到的有监督的码本组生成多个中间层特征表示,根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。本发明克服了现有码本(特征)学习不能有效应对海量类别的分类问题。

    基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

    公开(公告)号:CN103995804A

    公开(公告)日:2014-08-20

    申请号:CN201410203087.2

    申请日:2014-05-14

    Abstract: 本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法、装置,其中该方法包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。

    一种用于抑制语言偏差的贪心梯度集成方法及系统

    公开(公告)号:CN113407794A

    公开(公告)日:2021-09-17

    申请号:CN202110608491.8

    申请日:2021-06-01

    Abstract: 一种用于抑制语言偏差的贪心梯度集成方法,其特征在于,包括下列步骤:将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。

    一种基于树结构的图像分类方法及其系统

    公开(公告)号:CN103324954A

    公开(公告)日:2013-09-25

    申请号:CN201310214553.2

    申请日:2013-05-31

    Abstract: 本发明公开了一种基于树结构的图像分类方法及其系统,其中该方法包括:步骤一,提供具有标签信息的样本集合,以及根据标签信息的语义相关性构建的语义树结构;步骤二,根据该样本集合与该语义树结构,通过模型训练得到一组有监督的码本和分类器模型;步骤三,对于测试图像,利用训练得到的有监督的码本组生成多个中间层特征表示,根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。本发明克服了现有码本(特征)学习不能有效应对海量类别的分类问题。

    一种抑制语言偏差的视觉问答方法及系统

    公开(公告)号:CN113407794B

    公开(公告)日:2023-10-31

    申请号:CN202110608491.8

    申请日:2021-06-01

    Abstract: 一种用于抑制语言偏差的贪心梯度集成方法,其特征在于,包括下列步骤:将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。

    一种自约束视频活动预测方法及系统

    公开(公告)号:CN113327268A

    公开(公告)日:2021-08-31

    申请号:CN202110577016.9

    申请日:2021-05-26

    Abstract: 本发明提出一种自约束视频活动预测方法和系统。包括:提取待预测视频中每帧的该视觉特征F={F1,F2,...,Fo},并通过第一特征聚合模型处理该视觉特征F,得到最后观测时刻o的特征表示ho;获取指定的预测帧数a,根据视觉特征F和ho迭代预测下一时刻的特征表示,直到预测第o+a帧的特征表示,保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果。本发明通过迭代预测提高了活动预测的准确性。

Patent Agency Ranking