视频描述方法、系统及装置

    公开(公告)号:CN110019952B

    公开(公告)日:2023-04-18

    申请号:CN201710940199.X

    申请日:2017-09-30

    Abstract: 本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。

    语义增强型场景文本识别方法及装置

    公开(公告)号:CN113591546A

    公开(公告)日:2021-11-02

    申请号:CN202110653956.1

    申请日:2021-06-11

    Inventor: 崔萌萌 王威 王亮

    Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。

    跨模态检索方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN112487217A

    公开(公告)日:2021-03-12

    申请号:CN201910868454.3

    申请日:2019-09-12

    Inventor: 王亮 黄岩 陈泽睿

    Abstract: 本申请实施例公开了跨模态检索方法,包括:获取第一模态数据和待检索的第二模态数据;将第一模态数据和第二模态数据输入训练好的跨模态检索网络;通过跨模态检索网络提取第一模态数据的第一特征和第二模态数据的第二特征,根据第一特征和第二特征的匹配度输出检索结果;检索结果用于表征从第一模态数据中检索出的与第二模态数据匹配的数据;其中,跨模态检索网络包括利用神经网络基于数据集中的原始数据和生成数据进行训练而来的网络;生成数据包括由生成式对抗网络中训练好的生成器基于原始数据生成的数据;生成器与生成式对抗网络中的判别器同时进行训练,用于将原始数据中属于第二模态的数据生成属于第一模态的数据。

    基于人体姿态的多视角人体图像合成方法及装置

    公开(公告)号:CN109191366B

    公开(公告)日:2020-12-01

    申请号:CN201810764054.3

    申请日:2018-07-12

    Abstract: 本发明属于图像合成技术领域,具体提供一种基于人体姿态的多视角人体图像合成方法及装置。旨在解决现有技术无法有效地进行人的多视角图像合成以及保持人的特征不发生明显变化的问题。本发明提供了一种基于人体姿态的多视角人体图像合成方法,包括基于姿态转换模型并根据原始人体姿态和目标视角,对原始人体姿态进行姿态转换;基于前景转换模型并根据原始前景图像、原始人体姿态和目标视角人体姿态,对原始前景图像进行前景转换;基于多视角合成模型并根据原始图像和目标前景图像,对原始图像进行多视角合成,得到多视角人体合成图像。本发明提供的方法具有保持合成图像中人的特征,以及合成高质量的合成图像的有益效果。

    基于双流生成对抗网络的跨视角步态识别装置及训练方法

    公开(公告)号:CN108596026B

    公开(公告)日:2020-06-30

    申请号:CN201810217938.7

    申请日:2018-03-16

    Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于双流生成对抗网络的跨视角步态识别装置及训练方法。旨在解决跨视角步态识别准确率不高的问题。具体包括:通过一个全局流生成对抗网络模型学习一个标准角度的全局流步态能量图像;利用三个局部流生成对抗网络模型学习标准角度的局部流步态能量图像;该方法中的全局流模型能够学到全局步态特征,在全局流模型的基础上,加入局部流网络,可以学到局部步态特征;通过在双流生成对抗网络的生成器上加入像素级约束可以恢复步态细节;通过将全局步态特征和局部步态特征进行融合,可以提升步态识别准确率。该方法对于步态图像具有极强的鲁棒性,可以较好的解决跨视角步态识别问题。

    同步自适应时空特征表达学习模型的构建方法及相关方法

    公开(公告)号:CN107704924B

    公开(公告)日:2020-05-19

    申请号:CN201610602678.6

    申请日:2016-07-27

    Inventor: 王亮 杜勇

    Abstract: 本发明公开了针对序列的同步自适应时空特征表达学习模型的构建方法及其相关的模型分析方法和行为识别方法。其中,该构建法包括首先将长短时记忆神经元输入及三个控制门的全连接替换为四组独立的滤波器,依次构建卷积递归神经元;然后,将X个CRN并行排列,构建卷积递归神经网络层;接着根据以下方式构建隐含层:各CRN的输出只存在向其自身基本单元的反馈连接,且各CRN之间不存在连接关系;再在卷积递归神经网络层和输入序列之间构建卷积层;最后,将Y个卷积递归神经网络层相堆叠,形成卷积递归神经网络,单个卷积递归神经网络层包含Z个子层。通过本发明实施例可以获取更具区分性的序列时空信息表达,而且无需复杂的预处理。

    一种数据特征选择和预测方法及装置

    公开(公告)号:CN106777891B

    公开(公告)日:2019-06-07

    申请号:CN201611043691.9

    申请日:2016-11-21

    Inventor: 吴书 王亮 谭铁牛

    Abstract: 本发明公开了数据特征选择和预测方法及装置。方法包括:步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;步骤S2、从所述数据集中的用户信息中提取用户特征;步骤S3、从所述数据集中的血压观测数据提取血压特征;步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和/或梯度迭代决策树模型之中,训练得到预测模型。本发明利用医学知识指导数据的清洗和特征工程选取工作,有效提升模型的准确性。

    一种基于卷积神经网络的人脸检测方法及装置

    公开(公告)号:CN104992167B

    公开(公告)日:2018-09-11

    申请号:CN201510451034.7

    申请日:2015-07-28

    Abstract: 本发明公开了一种基于卷积神经网络的人脸检测方法及装置。所述方法包括将训练集中的所有图片缩放成预定大小的灰度图,并为每个所述图片中的每个像素点赋予标签信息,所述标签信息用于表示其对应的像素点是否为人脸;建立卷积神经网络,其中,所述卷积神经网络各层依次为输入层、多个卷积层、多个全连接层和输出层;使用梯度下降法和反向传播算法训练所述卷积神经网络;将待检测照片输入至训练好的所述卷积神经网络中,得到最后一层的输出特征值;将所述最后一层的输出特征值与预定阈值进行比较,以确定所述待测照片中各像素点是否为人脸区域;使用最小闭包的方法,根据确定为人脸区域的各像素点检测出人脸的位置。

    基于递归神经网络和人体骨架运动序列的行为识别方法

    公开(公告)号:CN104615983B

    公开(公告)日:2018-07-31

    申请号:CN201510043587.9

    申请日:2015-01-28

    Inventor: 王亮 王威 杜勇

    Abstract: 本发明公开种基于递归神经网络的人体骨架运动序列行为识别方法,包括以下步骤:对已经提取好的人体骨架姿态序列中节点坐标进行归化,以消除人体所处绝对空间位置对识别过程的影响,利用简单平滑滤波器对骨架节点坐标滤波以提高信噪比,最后将平滑后的数据送入个层次化双向递归神经网络进行深度特征提取及识别,同时提供了种层次化单向递归神经网络模型以应对实际中的实时在线分析需求。该方法主要优点是根据人体结构特征及运动的相对性,设计端到端的分析模式,在实现高精度识别率的同时避免复杂的计算,便于实际应用。该发明对于基于深度摄像机技术的智能视频监控、智能交通管理及智慧城市等领域具有重要意义。

    基于卷积神经网络的显著信息检测方法及装置

    公开(公告)号:CN106844765A

    公开(公告)日:2017-06-13

    申请号:CN201710098500.7

    申请日:2017-02-22

    Abstract: 本发明公开了一种基于卷积神经网络的显著信息检测方法及装置。所述方法包括:对于所爬取的数据集,确定每个事件发展各个阶段的时间分布,并确定时间节点;对于每一个事件,根据所确定的时间节点将所述事件样本对应的所有的事件信息分成若干份,将每一个时间阶段内事件信息的文本内容拼接成一个段落,生成段落数据集;根据段落的分布表达算法学习所述段落数据集中每个段落的无监督表达向量;对于一个事件,将每个段落的无监督表达向量输入到深度卷积神经网络模型,利用多层卷积操作得到事件各个阶段的低层到高层的表达,通过k最大池化操作提取事件各个阶段的关键特征,最后通过一个全连接层对输入的信息进行不实信息的分类。

Patent Agency Ranking