-
公开(公告)号:CN108319686B
公开(公告)日:2021-07-30
申请号:CN201810101127.0
申请日:2018-02-01
Applicant: 北京大学深圳研究生院
IPC: G06F16/2458 , G06F16/58 , G06F16/28 , G06N3/08
Abstract: 本发明公布了一种基于受限文本空间的对抗性跨媒体检索方法,设计特征提取网络、特征映射网络和模态分类器,通过学习得到受限文本空间,提取适用于跨媒体检索的图像和文本特征,实现图像特征从图像空间到文本空间的映射;通过对抗性训练机制使得学习过程中不断减小不同模态数据之间特征分布的差异性;由此实现跨媒体检索。本发明能够更好地拟合人类在跨媒体检索任务中的行为表现;得到更适用于跨媒体检索任务的图像和文本特征,弥补了预训练特征在表达能力上的欠缺;引入对抗性学习的机制,通过模态分类器与特征映射网络之间的最大最小博弈,进一步提升了检索准确率。
-
公开(公告)号:CN106897714B
公开(公告)日:2020-01-14
申请号:CN201710177579.2
申请日:2017-03-23
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。
-
公开(公告)号:CN106897714A
公开(公告)日:2017-06-27
申请号:CN201710177579.2
申请日:2017-03-23
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。
-
公开(公告)号:CN106095893A
公开(公告)日:2016-11-09
申请号:CN201610398342.2
申请日:2016-06-06
Applicant: 北京大学深圳研究生院
IPC: G06F17/30
CPC classification number: G06F17/30 , G06F17/30023
Abstract: 本发明公布了一种跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索,包括:建立多媒体数据集、对样本集中的所有样本进行耦合特征映射、进行同种媒体类型内的关联挖掘、进行异种媒体类型间的关联挖掘、通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权,分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵、将相似度降序排列进行检索。本发明提供的技术方案整体性能较好、适用性较广,可以用在多种跨媒体检索场景中。
-
-
-