-
公开(公告)号:CN105072373A
公开(公告)日:2015-11-18
申请号:CN201510540560.0
申请日:2015-08-28
Applicant: 中国科学院自动化研究所
IPC: H04N7/01
Abstract: 本发明公开了一种基于双向循环卷积网络的视频超分辨率方法,包括:建立双向循环网络,包括按照时间顺序的前向循环子网络和后向循环子网络,每个循环子网络自底向上包含一个输入序列层,两个隐含序列层和一个输出序列层,每一序列层包括多个状态,对应于不同时刻的视频帧;用三种卷积操作来连接这些状态,包括前馈卷积,循环卷积和条件卷积,以得到双向循环卷积网络;把训练视频送到建立好的双向循环卷积网络中,利用随机梯度下降算法来最小化预测的和真实的高分辨率视频之间的均方误差,从而迭代地优化该网络的权重,并得到最终的双向循环卷积网络;向所述最终的双向循环卷积网络模型输入待处理的低分辨率视频序列,得到对应的超分辨率结果。
-
公开(公告)号:CN103049526B
公开(公告)日:2015-08-05
申请号:CN201210559081.X
申请日:2012-12-20
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于双空间学习的跨媒体检索方法。该方法包括:首先提取不同模态的多媒体数据的特征,利用双空间学习方法学习得到两个映射矩阵,将不同模态的数据映射到同一个空间;对于测试样本集,将其分为两部分:查询数据集和目标数据集,使用学习得到的映射矩阵将两个数据集的数据映射到统一空间,然后度量查询数据和目标数据之间的距离,并得到与查询数据距离最近的目标数据。本发明可以将不同模态的多媒体数据映射入统一空间进行度量,且在映射的同时进行了特征选择,提高了检索的鲁棒性和准确性,具有良好的运用前景。
-
公开(公告)号:CN104615983A
公开(公告)日:2015-05-13
申请号:CN201510043587.9
申请日:2015-01-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/6227 , G06N3/04
Abstract: 本发明公开一种基于递归神经网络的人体骨架运动序列行为识别方法,包括以下步骤:对已经提取好的人体骨架姿态序列中节点坐标进行归一化,以消除人体所处绝对空间位置对识别过程的影响,利用简单平滑滤波器对骨架节点坐标滤波以提高信噪比,最后将平滑后的数据送入一个层次化双向递归神经网络进行深度特征提取及识别,同时提供了一种层次化单向递归神经网络模型以应对实际中的实时在线分析需求。该方法主要优点是根据人体结构特征及运动的相对性,设计端到端的分析模式,在实现高精度识别率的同时避免复杂的计算,便于实际应用。该发明对于基于深度摄像机技术的智能视频监控、智能交通管理及智慧城市等领域具有重要意义。
-
公开(公告)号:CN103049526A
公开(公告)日:2013-04-17
申请号:CN201210559081.X
申请日:2012-12-20
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于双空间学习的跨媒体检索方法。该方法包括:首先提取不同模态的多媒体数据的特征,利用双空间学习方法学习得到两个映射矩阵,将不同模态的数据映射到同一个空间;对于测试样本集,将其分为两部分:查询数据集和目标数据集,使用学习得到的映射矩阵将两个数据集的数据映射到统一空间,然后度量查询数据和目标数据之间的距离,并得到与查询数据距离最近的目标数据。本发明可以将不同模态的多媒体数据映射入统一空间进行度量,且在映射的同时进行了特征选择,提高了检索的鲁棒性和准确性,具有良好的运用前景。
-
公开(公告)号:CN113591546B
公开(公告)日:2023-11-03
申请号:CN202110653956.1
申请日:2021-06-11
Applicant: 中国科学院自动化研究所
IPC: G06V30/40 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
-
公开(公告)号:CN116109973A
公开(公告)日:2023-05-12
申请号:CN202310029012.6
申请日:2023-01-09
Applicant: 杭州海康威视数字技术股份有限公司 , 中国科学院自动化研究所
Abstract: 本申请提供一种物体特征的确定方法、装置及设备,包括:获取样本视频中的关键帧对应的多个目标物体特征,获取样本文本对应的文本特征;基于文本特征和多个目标物体特征确定文本特征与关键帧之间的空间定位分数和时间定位分数;基于空间定位分数和时间定位分数确定第一损失值;从关键帧对应的多个目标物体特征中选取代表性物体特征,确定代表性物体特征对应的特征效应分数;从样本视频的多个关键帧中选取代表性关键帧,确定代表性关键帧对应的帧效应分数;基于特征效应分数和帧效应分数确定第二损失值;基于第一损失值和第二损失值确定目标损失值,基于目标损失值训练得到目标网络模型。通过本申请方案,目标网络模型的训练时间短,资源消耗小。
-
公开(公告)号:CN114120445A
公开(公告)日:2022-03-01
申请号:CN202111371379.3
申请日:2021-11-18
Applicant: 北京易达图灵科技有限公司 , 南京南瑞信息通信科技有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种动态信息增强的行为识别方法及装置,所述方法包括:确定待识别视频的图像序列;将图像序列输入至行为识别模型,得到行为识别模型输出的行为识别结果,行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;其中,行为识别模型用于对图像序列中各帧图像进行特征提取,得到表观特征图序列,对表观特征图序列中每相邻两个表观特征图进行差分运算,得到动态特征图序列,对动态特征图序列和表观特征图序列进行特征编码,得到动态特征表示,并基于动态特征表示进行行为识别。本发明提供的方法、装置、电子设备与存储介质,在提升行为识别的准确率的同时,也提高了行为识别的实时性,应用价值更高。
-
公开(公告)号:CN110019952A
公开(公告)日:2019-07-16
申请号:CN201710940199.X
申请日:2017-09-30
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G06F16/738 , G06K9/00 , G06K9/62 , G06N3/04
Abstract: 本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。
-
公开(公告)号:CN105205448B
公开(公告)日:2019-03-15
申请号:CN201510522576.9
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
-
公开(公告)号:CN109191366A
公开(公告)日:2019-01-11
申请号:CN201810764054.3
申请日:2018-07-12
Applicant: 中国科学院自动化研究所
IPC: G06T3/00
Abstract: 本发明属于图像合成技术领域,具体提供一种基于人体姿态的多视角人体图像合成方法及装置。旨在解决现有技术无法有效地进行人的多视角图像合成以及保持人的特征不发生明显变化的问题。本发明提供了一种基于人体姿态的多视角人体图像合成方法,包括基于姿态转换模型并根据原始人体姿态和目标视角,对原始人体姿态进行姿态转换;基于前景转换模型并根据原始前景图像、原始人体姿态和目标视角人体姿态,对原始前景图像进行前景转换;基于多视角合成模型并根据原始图像和目标前景图像,对原始图像进行多视角合成,得到多视角人体合成图像。本发明提供的方法具有保持合成图像中人的特征,以及合成高质量的合成图像的有益效果。
-
-
-
-
-
-
-
-
-