基于帧选择的视频内容描述方法和系统

    公开(公告)号:CN109409221A

    公开(公告)日:2019-03-01

    申请号:CN201811100828.9

    申请日:2018-09-20

    Abstract: 本发明涉及一种基于帧选择的视频内容描述方法,包括:以前馈神经网络构建筛选模型,该筛选模型根据视频帧的视觉丰富度和语义一致度对该视频帧进行筛选;构建用于对待描述视频的内容进行描述的描述模型;以训练数据对该筛选模型和该描述模型进行训练;通过该筛选模型在该待描述视频中选取描述帧;提取该描述帧的视觉特征并输入该描述模型,获得该待描述视频的描述语句。

    基于语义保持的跨模态内容检索方法和系统

    公开(公告)号:CN109284414A

    公开(公告)日:2019-01-29

    申请号:CN201811156579.5

    申请日:2018-09-30

    Abstract: 本发明涉及一种基于语义保持的跨模态内容检索方法,包括:以第一模态样本和第二模态样本的特征向量为结点分别构建第一特征图和第二特征图;提取所有样本的标签向量为结点构建语义图;获取每个结点的邻居结点;分别构建用于将第一模态样本和第二模态样本映射为隐含表示的第一映射函数和第二映射函数;对映射函数进行学习,近似最大化每个结点的邻居结点出现的似然,并使得每个隐含表示可以重建对应结点对应的标签信息;以第一映射函数将检索样本映射为检索隐含表示,并以第二映射函数将每个第二模态样本映射为目标隐含表示;获取检索隐含表示与每个目标隐含表示的距离,以所有小于检索阈值的距离对应的第二模态样本为检索结果。

    基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

    公开(公告)号:CN103995804B

    公开(公告)日:2017-02-01

    申请号:CN201410203087.2

    申请日:2014-05-14

    Abstract: 本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法及其装置,其中该方法包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。(56)对比文件Qing Li等.User comments for newsrecommendation in forum-based socialmedia《.Information Science》.2010,第4929-4939页.Tianlong Chen等.An Effective Multi-Clue Fusion Approach for Web Video TopicDetection《.Proceedings of the 20th ACMinternational conference on Multimedia》.2012,第781-784页.

    一种基于互信息的目标匹配方法及其系统

    公开(公告)号:CN104281572A

    公开(公告)日:2015-01-14

    申请号:CN201310271950.3

    申请日:2013-07-01

    CPC classification number: G06K9/6211 G06K9/4676 G06K2209/21

    Abstract: 本发明公开了一种基于互信息的目标匹配方法及其系统,该方法包括:步骤1,将查询图像和参考图像的特征拼接在一起;步骤2,将拼接后的特征对按照类别组成对应至类别下的SET特征集合,每个类别对应一个SET特征集合,SET特征集合中包含查询图像与每个类别的参考图像组成的特征对;步骤3,使用互信息表征SET特征集合与其类别标签之间的关系,通过对互信息的计算,得到目标匹配类别。该方法充分利用了gallery中的多张图片信息提高匹配精度和性能。

    一种基于时序信息的跨视角动作识别方法及系统

    公开(公告)号:CN104200218A

    公开(公告)日:2014-12-10

    申请号:CN201410406317.5

    申请日:2014-08-18

    Abstract: 本发明公开了一种基于时序信息的跨视角动作识别方法及系统,本发明涉及模式识别领域技术。该方法包括检测视频的感兴趣点,提取该感兴趣点的运动强度,该视频包括:源视角视频和目标视角视频;根据该视频的该时序信息将该运动强度进行时序积累,获得该视频的运动特征描述;根据该运动特征描述和该源视角视频的源粗粒度标注信息,对该目标视角视频进行粗粒度标注,获得目标粗粒度标注信息;根据该源粗粒度标注信息和该目标粗粒度标注信息,通过度量学习方法,对该源视角视频和该目标视角视频进行度量学习,获得跨视角度量方法;通过该跨视角度量方法对该目标视角视频中的动作进行动作分类,以完成跨视角的动作识别。

    人体动作识别的训练方法和识别方法

    公开(公告)号:CN101894276B

    公开(公告)日:2012-09-05

    申请号:CN201010195802.4

    申请日:2010-06-01

    CPC classification number: G06K9/00335 G06K9/4671 G06K2009/3291

    Abstract: 本发明提供一种人体动作识别的训练方法,包括:从视频文件中提取时空兴趣点;将所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为视频单词生成统计直方图;根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组;对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由视频单词与语境单词形成时空视频单词团体;从时空视频词组中选择代表性时空视频词组,从时空视频单词团体中选择代表性时空视频单词团体;利用视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。

    一种对多媒体创建索引的方法

    公开(公告)号:CN101739428B

    公开(公告)日:2012-04-18

    申请号:CN200810226247.X

    申请日:2008-11-10

    Abstract: 本发明提供一种对多媒体创建索引的方法,包括:将从与多媒体相关的语音或文本中所找到的人名在图像搜索引擎上搜索,根据搜索结果为所述人名建立对应的人脸库;为所述人脸库中的各个人脸以及所述视频的视频帧或所述图片中的待检测人脸分别提取特征;将所述的待检测人脸与所述人脸库中的各个人脸分别进行特征匹配,由匹配结果得知待检测人脸是否与人脸库所代表的人名匹配;将匹配的人名作为所述多媒体的索引。本发明的对多媒体创建索引的方法无需人为干预,无需事先标注数据,具有良好的扩展性;可以解决人脸匹配操作中常见的小样本量问题,能够方便快捷并且有效地对很小量的新闻报告中的人脸进行命名,并创建相关的索引。

    一种粒子滤波跟踪方法和跟踪装置

    公开(公告)号:CN101493943A

    公开(公告)日:2009-07-29

    申请号:CN200810056904.0

    申请日:2008-01-25

    Abstract: 本发明公开了一种粒子滤波跟踪方法和跟踪装置,该方法包括:步骤S1:在原始图像帧上采样获得初始粒子集;步骤S2:对原始图像帧的像素经过前景背景分类得到概率图;步骤S3:按照系统动态模型传播粒子并采样,得到第二粒子集;步骤S4:按照在概率图上构建的系统观察模型得到所述第二粒子的权重,并归一化粒子的权重得到第三粒子集;步骤S5:对所述第三粒子集进行重要性重采样,得到重采样粒子集;步骤S6:通过重采样粒子集计算系统状态并输出。本发明提高了粒子滤波的计算效率,并提高了鲁棒性,不容易丢失目标。

    一种两阶段的长尾学习方法
    20.
    发明公开

    公开(公告)号:CN119006926A

    公开(公告)日:2024-11-22

    申请号:CN202411216125.8

    申请日:2024-09-02

    Abstract: 本发明提供了一种两阶段的长尾学习方法,包括:利用具有长尾分布的图像分类的训练集对图像分类模型进行两阶段的多轮迭代训练,得到经训练的图像分类模型,其中:第一阶段的学习,包括:利用头部类集合和损失函数确定第一锐度感知梯度,以及利用尾部类集合和损失函数确定第二锐度感知梯度,根据第一锐度感知梯度和第二锐度感知梯度更新图像分类模型的参数;第二阶段的学习,包括:利用头部类集合和损失函数确定第一原始梯度,以及利用尾部类集合和损失函数确定第二锐度感知梯度,根据第一原始梯度和第二锐度感知梯度更新图像分类模型的参数,本发明方法在整体上提升了模型的泛化能力。

Patent Agency Ranking