-
公开(公告)号:CN101996191B
公开(公告)日:2013-08-07
申请号:CN200910090902.8
申请日:2009-08-14
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种二维跨媒体元搜索方法和系统,属于信息检索领域。本发明的元搜索方法基于查询聚类和结果集交叠分析,通过对不同的子检索模型提供的检索结果集进行合并、加权等融合操作,最终获得单一的检索结果集。该元搜索方法包括:预处理阶段;查询分类阶段;检索执行阶段;融合阶段;以及,更新阶段。本发明所提供的跨媒体元搜索方法能同时利用类似查询在特征上的相似性、在检索结果融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性等来有效改进检索性能,其检索性能优于单一维度的跨媒体搜索方法。
-
公开(公告)号:CN102314614B
公开(公告)日:2013-06-05
申请号:CN201110324600.X
申请日:2011-10-24
Applicant: 北京大学
IPC: G06K9/62
Abstract: 一种基于类共享多核学习的图像语义分类方法,涉及人工智能领域。预处理阶段,提取图像的底层特征并计算多核矩阵;建模阶段,构建一个类共享的多核分类器模型;参数学习阶段,在统一的框架内对多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重进行优化;图像分类阶段,对待分类的样本,利用学习好的分类器进行图像分类。本发明一方面通过共享一组基础多核函数权重挖掘各个类别在多核函数空间中共有的隐含知识,另一方面对不同类别具有类别相关的多核函数权重,以考虑各个类别在多核函数空间的个性。根据训练数据的充分程度,提供了多核函数组合在类别间相互独立、部分共享或者完全共享的多核分类方法。
-
公开(公告)号:CN102737135A
公开(公告)日:2012-10-17
申请号:CN201210238553.1
申请日:2012-07-10
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供了基于变形敏感的软级联模型的视频拷贝检测方法及系统。包括以下步骤:预处理步骤,从查询视频中提取出格式一致的视觉关键帧和音频帧;变形识别步骤,判定所述查询视频经受的变形的类别,并将它传递给该类别对应的级联检测器链;检测步骤:级联检测器链中的检测器依次处理查询视频,直到某个检测器判定它为拷贝,或者所有检测器全部判定它为非拷贝,在某一个检测器内部,首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧,然后利用时域金字塔匹配TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝,在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。
-
公开(公告)号:CN102013022B
公开(公告)日:2012-10-10
申请号:CN201010555962.5
申请日:2010-11-23
Applicant: 北京大学
Abstract: 本发明提供了一种针对人群密集监控场景的选择式特征背景减除方法。针对传统的背景减除方法在人群密集场景下会导致较高漏检和误检的问题,本发明提出一种选择式特征背景减除方法。包括:建立场景稀疏度模型;选取与稀疏度模型相似度较高的视频帧作为训练样本,利用批处理主成分分析求取初始化的特征背景;更新场景稀疏度模型,选取与稀疏度模型相似度较高的视频帧用增量式主成分分析对特征背景进行更新;在像素级上进行选择式地重构背景;求取自适应阈值以对差值图像进行阈值化,得到前景图像。本发明可以在光照条件比较稳定的人群密集场景中,较好地检测出运动缓慢和静止的前景对象,同时保持较低的误检率。
-
公开(公告)号:CN102333220A
公开(公告)日:2012-01-25
申请号:CN201110321642.8
申请日:2011-10-21
Applicant: 北京大学
Abstract: 本发明提出了一种高效的视频编解码方法,它选择性地在原图像空间和变换空间完成基于预测的编解码。这种方法首先得到变换域的当前图像块和参考图像块,所用的变换方法包括减去当前图像和参考图像所对应的场景模型以及对参考图像和当前图像进行其它可逆变换。然后同时在原始域像素空间和变换域像素空间采用传统编码方法进行预测编码,最后比较两种预测编码结果,选择最优的编码结果作为当前图像块的编码结果,并将选择信息写入码流。在对各个数据块的编码过程中,在两种模式中选择编码效率高的作为该数据块的编码模式。该方法可以显著地提高视频压缩效率。
-
公开(公告)号:CN102314614A
公开(公告)日:2012-01-11
申请号:CN201110324600.X
申请日:2011-10-24
Applicant: 北京大学
IPC: G06K9/62
Abstract: 一种基于类共享多核学习的图像语义分类方法,涉及人工智能领域。预处理阶段,提取图像的底层特征并计算多核矩阵;建模阶段,构建一个类共享的多核分类器模型;参数学习阶段,在统一的框架内对多个类别的分类器参数、基础多核函数权重及类别相关的多核函数权重进行优化;图像分类阶段,对待分类的样本,利用学习好的分类器进行图像分类。本发明一方面通过共享一组基础多核函数权重挖掘各个类别在多核函数空间中共有的隐含知识,另一方面对不同类别具有类别相关的多核函数权重,以考虑各个类别在多核函数空间的个性。根据训练数据的充分程度,提供了多核函数组合在类别间相互独立、部分共享或者完全共享的多核分类方法。
-
公开(公告)号:CN101482926B
公开(公告)日:2011-06-15
申请号:CN200910077364.9
申请日:2009-02-19
Applicant: 北京大学
Abstract: 一种可伸缩的自适应多核分类方法,涉及人工智能领域,特别是数据挖掘技术。预处理阶段,得到多核矩阵;建模阶段,构建一个簇相关的多核分类器;参数学习阶段,在统一的框架内对分类器参数及多组多核权值参数进行优化;数据分类阶段,对待分类的样本,首先确定其属于哪一个簇,再利用学习好的分类器进行数据分类。本发明通过引入中间表达“簇”挖掘复杂数据集的类间相关性和类内多样性,建立了簇相关的自适应和可伸缩多核分类器,并通过迭代的方式在统一的学习框架下优化分类器参数和多组多核权值参数。面对类别繁多且特征表现复杂的数据分类问题,解决类间相关性和类内多样性带来的数据混叠问题,提高了分类准确率,且分类效果更为鲁棒。
-
公开(公告)号:CN101835011A
公开(公告)日:2010-09-15
申请号:CN200910118779.6
申请日:2009-03-11
IPC: H04N5/445
Abstract: 本发明涉及视频检测技术,公开了字幕检测方法及装置、背景恢复方法及装置,其中字幕检测方法包括:获取视频帧中像素区域属于平滑背景的概率;使用帧间相关系数确定所述像素区域属于静止纹理的概率;获取所述像素区域属于动态纹理的概率;根据所述像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定所述像素区域是否属于滚动字幕区域。使用本发明实施例提供的技术方案,可以使用帧间信息对视频的字幕进行检测。
-
公开(公告)号:CN101639940A
公开(公告)日:2010-02-03
申请号:CN200810117547.4
申请日:2008-08-01
Applicant: 北京大学
Abstract: 一种基于视频内容的提取视频注意窗序列的方法。该方法包括:预处理阶段,计算视频序列中每一帧不同区域的视觉显著性;建模阶段,为候选大小的注意窗在三维时空立方体中构建图模型;优化阶段,通过优化算法,在已生成的图上提取最佳注意窗口的大小及滑动轨迹;压缩阶段,其通过投影将待搜索的三维时空立方体空间压缩为二维搜索空间,加速注意窗口序列提取。利用本发明所提供的提取视频注意窗口序列的方法及系统,可以对视频信息进行自适应的缩放和自适应的压缩,从而提高整个视频内容的传输和浏览效果。
-
公开(公告)号:CN101137017A
公开(公告)日:2008-03-05
申请号:CN200710176126.4
申请日:2007-10-19
Applicant: 北京大学
Abstract: 本发明涉及一种图像和视频处理方法及系统,特别是关于一种快速检测在线视频流中静态叠加文字的方法及系统。静态叠加文字检测方法利用帧间相关信息及小波域建模等方法,可以有效的去除运动文字和背景区域,并保留静态叠加文字区域。本方法可以实现对在线视频流中静态叠加文字位置的快速检测。同时,基于静态叠加文字检测方法构建了一种在线视频流检索系统。本系统中,在各个用户终端上使用不同的参数族进行快速的文字检测,并将结果通过OCR控件转化为文本流。在各用户终端将文本流传输至集中检索服务器进行整合后,可以提供对各频道的多时间粒度的检索功能,并提供对各频道的基于内容的快速浏览功能。本发明可以在不侵犯版权的情况下,实现对多路多种质量的在线视频流进行同步分析、索引、检索以及浏览的功能,并且不需要对各种视频流建立专门的服务器。
-
-
-
-
-
-
-
-
-