-
公开(公告)号:CN112860847B
公开(公告)日:2022-08-19
申请号:CN202110069976.4
申请日:2021-01-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。
-
公开(公告)号:CN112860847A
公开(公告)日:2021-05-28
申请号:CN202110069976.4
申请日:2021-01-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。
-
公开(公告)号:CN104217222B
公开(公告)日:2017-11-21
申请号:CN201410498343.5
申请日:2014-09-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于随机采样哈希表示的图像匹配方法,包括以下步骤:将n幅图像组成原始数据集,提取所有图像的视觉特征生成特征空间;从原始数据集中随机选择m幅图像,同时在特征空间中随机抽取p个视觉特征子集,得到一个样本子集;学习得到样本子集的t个主特征向量,作为哈希投影函数;用来生成t位二值哈希编码;重复上述步骤k次,得到k段t位二值哈希编码,并级联得到k×t位的二值哈希编码,作为匹配特征;得到待匹配图像和原始数据集中每一幅图像的二值哈希编码;基于得到的二值哈希编码进行相似度度量,得到待匹配图像的匹配结果。本发明有助于加快基于哈希编码的近似近邻查找方法的精度,适用于图像检索、图像匹配及其它机器学习算法中。
-
公开(公告)号:CN102364473B
公开(公告)日:2013-11-20
申请号:CN201110352002.3
申请日:2011-11-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明提出了一种融合地理信息与视觉信息的网络新闻检索系统及方法。该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。本发明的系统及方法综合利用了地理位置信息和视觉信息对网络新闻进行描述与展示,为网络用户提供基于地理位置的多媒体新闻检索,同时综合了新闻地点-新闻事件的关系、新闻地点的相关性以及新闻事件之间的关系,从而提供给用户一个更生动、更富信息的新闻搜索结果。
-
公开(公告)号:CN102148921A
公开(公告)日:2011-08-10
申请号:CN201110113290.7
申请日:2011-05-04
Applicant: 中国科学院自动化研究所
IPC: H04N5/14
Abstract: 本发明是基于动态群组划分的多目标跟踪方法,所述多目标跟踪方法包括步骤如下:S1:对于视频场景中的某一时刻,首先判定是否有目标进入或离开场景区域,根据检测结果更新目标集合;S2:设定目标集合的分组阈值,使用层次聚类按距离对上一时刻目标集合进行聚类,根据上一时刻的聚类结果,将上一时刻目标位置分成不同群组;S3:为目标集合中的每个群组分配一个跟踪器,跟踪器根据群组内每个目标上一时刻的位置状态,加上群组内每个目标当前时刻在图像上的观测值,使用贝叶斯框架推断每个目标在当前时刻位置的最优值,用每个目标当前时刻位置的最优值更新目标集合中各个目标的位置状态,为推断各个目标的下一时刻的位置做准备。
-
公开(公告)号:CN102054170A
公开(公告)日:2011-05-11
申请号:CN201110021981.4
申请日:2011-01-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明是基于极小化上界误差的视觉跟踪方法,利用跟踪器估计目标在当前帧中的区域,所述目标区域包括目标位置与目标大小;以估计的目标区域为参照提取样本;对提取的样本抽取两类不同性质的视觉特征;利用抽取的各样本两类不同性质的视觉特征在线进行协同提升学习,并对跟踪器进行更新,在线协同提升学习中,利用两个并行的提升算法同时对两类不同性质的视觉特征进行选择,并在各级视觉特征选择中利用协同学习进行相互约束,在选择最佳的视觉特征提升跟踪器性能的同时利用协同学习配置最佳的样本属性。跟踪器在线学习不需要输入样本的标注信息,在跟踪结果不完全准确的情况下也不会带来累计误差,从而保证了跟踪器的稳定性与可靠性。
-
公开(公告)号:CN101877143A
公开(公告)日:2010-11-03
申请号:CN200910242340.4
申请日:2009-12-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种二维图像组的三维场景重建方法,该方法包括以下步骤:步骤S1:输入图像组中每幅图像计算各像素的视觉关注度评价;步骤S2:在输入图像组的各幅图像上提取尺度不变特征变换特征点,并且对图像组中两两图像上的特征点进行匹配和选择,获得的匹配特征点,匹配和选择的原则包括特征点对的特征空间相似度以及获得的特征点相对应的视觉关注度;步骤S3:利用获得的匹配特征点对对摄像机参数进行估计;步骤S4:用选取的匹配特征点对、相应特征点的关注度评价以及估计得到的摄像机参数求取优化的三维场景模型。
-
公开(公告)号:CN101751447A
公开(公告)日:2010-06-23
申请号:CN200910089536.4
申请日:2009-07-22
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明涉及基于语义分析的网络图像检索方法,对用户输入的查询图像提取底层特征。对每种特征进行基于内容的图像检索找到视觉上相似的网络图像集。用网络图像集中各图像所对应的相关文本信息进行语义学习得到查询图像的语义表示。判断各种特征所对应检索图像集在文本信息上的语义一致性,以语义一致性衡量各种特征的描述能力,并赋予不同的置信度。用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索得到图像库中每幅图像与查询图像的语义相关性;用底层特征对图像库基于内容的图像检索,得到图像库中每幅图像与查询图像视觉上的相关性;由线性函数把语义和视觉相关性融合,返回给用户的图像在语义层面上和视觉层面上都具有相似性。
-
公开(公告)号:CN1941909B
公开(公告)日:2010-05-05
申请号:CN200510105259.3
申请日:2005-09-28
Applicant: 中国科学院自动化研究所
IPC: H04N7/26
Abstract: 本发明涉及视频编码技术领域,特别是基于正交分布模型的快速运动估计方法。包括搜索模板的选择依据于正交分布模型,利用运动矢量的正交分布特性,快速定位到最优点的附近,在各级搜索模板所对应的多个搜索点上进行运动搜索;在运动搜索的结果找到搜索点中具有最小误差的运动搜索点;再根据该最小误差的运动搜索点在第一级搜索模板中所处的位置来决定下一步运动搜索所采用的搜索模板。
-
公开(公告)号:CN100546379C
公开(公告)日:2009-09-30
申请号:CN200610076013.2
申请日:2006-04-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及移动通信多媒体技术领域,特别是一种基于移动设备的体育视频的个性化定制方法及其装置。方法步骤包括:获取体育视频数据步骤、建立视频处理服务器端步骤、无线网络传输步骤、建立客户端步骤。其装置包括:体育视频模块、视频获取模块、精彩事件检测模块、体育视频服务控制台、体育视频合成输出模块、无线网络传输层、移动客户端。本发明基于服务器一客户端模式,根据不同的移动设备的性能、不同的网络带宽和用户的不同需求,为移动用户提供个性化的体育视频浏览;本发明能够较好在基于无线网络传输的移动设备上有效的收看体育视频,有效的个性化定制体育视频,提供的无线传输速度能满足常规的视频收看方式的需求。
-
-
-
-
-
-
-
-
-