基于双向循环卷积网络的视频超分辨率方法和系统

    公开(公告)号:CN105072373B

    公开(公告)日:2018-03-27

    申请号:CN201510540560.0

    申请日:2015-08-28

    Inventor: 王亮 王威 黄岩

    Abstract: 本发明公开了一种基于双向循环卷积网络的视频超分辨率方法,包括:建立双向循环网络,包括按照时间顺序的前向循环子网络和后向循环子网络,每个循环子网络自底向上包含一个输入序列层,两个隐含序列层和一个输出序列层,每一序列层包括多个状态,对应于不同时刻的视频帧;用三种卷积操作来连接这些状态,包括前馈卷积,循环卷积和条件卷积,以得到双向循环卷积网络;把训练视频送到建立好的双向循环卷积网络中,利用随机梯度下降算法来最小化预测的和真实的高分辨率视频之间的均方误差,从而迭代地优化该网络的权重,并得到最终的双向循环卷积网络;向所述最终的双向循环卷积网络模型输入待处理的低分辨率视频序列,得到对应的超分辨率结果。

    一种基于深度学习的文字检测方法及装置

    公开(公告)号:CN105184312A

    公开(公告)日:2015-12-23

    申请号:CN201510522970.2

    申请日:2015-08-24

    CPC classification number: G06K9/6256 G06K9/627 G06N3/088

    Abstract: 本发明公开了一种基于深度学习的文字检测方法及装置。所述方法包括:设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后用前端的特征提取层进行权值初始化,把最后一个全连接层结点数目改为2,使得网络成为一个二分类模型,用文字和非文字样本训练网络。经过以上步骤,一个文字检测分类器就完成了。在测试的时候,把全连接层转化为卷积层,给定一张输入图像,需要先进行多尺度滑动窗口扫描获得文字的概率图,再进行非极大值抑制得到最终的文字区域。

    基于判别相关分析的跨媒体检索方法

    公开(公告)号:CN102663447B

    公开(公告)日:2014-04-23

    申请号:CN201210133488.6

    申请日:2012-04-28

    Inventor: 谭铁牛 王亮 王威

    Abstract: 本发明公开了一种基于判别相关分析的跨媒体检索方法,该方法包括以下步骤:建立跨媒体训练数据库,依次对其中不同模态样本进行特征提取、均值预处理和线性投影变换,并根据投影空间设定一目标函数;求解目标函数得到线性投影向量;建立跨媒体测试数据库;对待检索对象依次进行特征提取和均值预处理;使用所述线性投影向量对经均值预处理的特征数据进行线性投影变换;计算两模态数据投影变量之间的欧式距离,并进行升序排序,从而得到跨媒体检索结果。本发明方法能够对特征数据进行有效地降维,从而广泛地应用在其他很多多模态工作中,比如多模态生物特征识别。

    视频描述方法、系统及装置

    公开(公告)号:CN110019952B

    公开(公告)日:2023-04-18

    申请号:CN201710940199.X

    申请日:2017-09-30

    Abstract: 本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。

    基于无监督学习的人体骨架序列行为识别方法

    公开(公告)号:CN112818887B

    公开(公告)日:2023-04-07

    申请号:CN202110180567.1

    申请日:2021-02-08

    Inventor: 王威

    Abstract: 本发明属于计算机视觉、模式识别和神经网络技术领域,具体涉及一种基于无监督学习的人体骨架序列行为识别方法,旨在解决现有行为识别方法在标注数据较少时,训练困难以及识别精度较低的问题。本系统方法包括获取一组待识别的人体骨架序列;组合子序列正、负样本对;提取子序列正、负样本对中各子序列对应的骨架节点的位置坐标序列、速度坐标序列,并对应的正负样本对;提取各位置坐标序列的特征向量、各速度坐标序列的特征向量;串联各子序列的位置坐标序列特征向量、速度坐标序列特征向量;通过分类器得到待识别的人体骨架序列所属的行为类别。本发明简化了训练的难度,并能在少量标记样本的监督下实现较高精度的行为识别。

    视频片段检索方法、装置、电子设备和可读存储介质

    公开(公告)号:CN113254716B

    公开(公告)日:2022-05-24

    申请号:CN202110577336.4

    申请日:2021-05-26

    Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。

    语义增强型场景文本识别方法及装置

    公开(公告)号:CN113591546A

    公开(公告)日:2021-11-02

    申请号:CN202110653956.1

    申请日:2021-06-11

    Inventor: 崔萌萌 王威 王亮

    Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。

    视频片段检索方法、装置、电子设备和可读存储介质

    公开(公告)号:CN113254716A

    公开(公告)日:2021-08-13

    申请号:CN202110577336.4

    申请日:2021-05-26

    Abstract: 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经网络;基于检测距离对多个图神经网络进行排序,生成网络序列;将相邻的上一图神经网络的第一知识信息知识迁移至下一图神经网络中,得到对应的节点更新特征和边更新特征;基于节点更新特征得到下一图神经网络进行知识迁移后的第二知识信息,直至得到尾部更新网络;计算尾部更新网络中与相似语句节点相连的边更新特征的置信度;得到视频片段的检索结果。通过本公开的技术方案,有利于提高对视频片段的检索性能。

Patent Agency Ranking