基于实例导向检测网络的行人搜索方法、系统、装置

    公开(公告)号:CN111967442A

    公开(公告)日:2020-11-20

    申请号:CN202010920874.4

    申请日:2020-09-04

    Abstract: 本发明属于计算机视觉、模式识别领域,具体涉及一种基于实例导向检测网络的行人搜索方法、系统、装置,旨在解决现有的行人搜索方法搜索准确率较低问题。本发明方法包括:获取输入视频中第t帧图像,作为第一图像;通过预训练的行人检测模型得到第一图像中各候选区域与第二图像的相似度并排序,排序后选取前N个候选区域作为检测区域;第二图像为预获取的待搜索行人目标的图像;基于各检测区域、第二图像,通过预训练的行人再识别模型得到行人目标的搜索结果。本发明提高了行人目标搜索的准确率。

    基于强化学习的行为识别视频帧采样方法及系统

    公开(公告)号:CN109800717B

    公开(公告)日:2021-02-02

    申请号:CN201910060129.4

    申请日:2019-01-22

    Abstract: 本发明涉及一种基于强化学习的行为识别视频帧采样方法及系统,所述行为识别视频帧采样方法包括:从待测试视频提取待测视频帧序列,并从待测视频帧序列中均匀采样T帧待测图像;基于行为识别的基础模型及各帧待测图像,确定对应帧待测图像的待测特征向量和待测行为预测;针对每帧待测图像,将待测特征向量和待测行为预测级联,得到待测状态序列;根据基于长短时记忆网络的智能体及待测状态序列,确定每帧待测图像的待测重要性得分;按照待测重要性得分的大小,从各帧待测图像中选取多帧待测视频的关键帧;根据各关键帧的待测行为预测,得到待测视频的行为预测;根据待测视频的行为预测,确定识别结果,从而降低无关帧带来的负面影响,降低噪声。

    基于唇部纹理结构的数字识别方法

    公开(公告)号:CN106250829A

    公开(公告)日:2016-12-21

    申请号:CN201610586767.6

    申请日:2016-07-22

    CPC classification number: G06K9/00335

    Abstract: 本发明公开了一种基于唇部纹理结构的数字识别方法,该方法包括:利用深度学习中卷积神经网络较强的特征提取能力以及长短时记忆网络对时序信息的处理能力,通过卷积神经网络和长短时记忆网络根据视频中对象的唇部运动识别数字。该方法对唇部图像的类内差异,头部姿势变化和非控制环境下的光照变化有较强的鲁棒性,有效地解决了唇语识别技术在交互式活体检测中识别精度不高的问题。该方法可被广泛应用于配有分辨率较高的摄像头的场景,如:中国金融系统的交互式活体检测等。

    基于类别外部记忆的视频目标检测方法、系统、装置

    公开(公告)号:CN111723719B

    公开(公告)日:2021-08-13

    申请号:CN202010536900.3

    申请日:2020-06-12

    Abstract: 本发明属于领域,具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置,旨在解决现有技术中当辅助帧数量较小时目标检测性能下降明显的问题。本发明包括:先根据训练视频信息通过自注意机制训练视频目标检测模型,再通过训练好的视频目标检测模型和自注意机制获得待测视频增强的实例特征,最后将增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支得到目标检测结果。本发明降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确地进行目标检测。

    基于双向交互网络的行人搜索方法、系统、装置

    公开(公告)号:CN111723728A

    公开(公告)日:2020-09-29

    申请号:CN202010557984.9

    申请日:2020-06-18

    Abstract: 本发明属于计算机视觉、模式识别领域,具体涉及一种基于双向交互网络的行人搜索方法、系统、装置,旨在解决边界框外场景信息对行人特征的影响,导致行人搜索准确度较低的问题。本系统方法包括:获取输入视频中第t帧图像,作为输入图像;对输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;行人搜索模型基于残差网络构建,并在残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。本发明提高了行人搜索的准确度。

    基于文本的三维人体模型生成方法和装置

    公开(公告)号:CN117237542B

    公开(公告)日:2024-02-13

    申请号:CN202311492951.0

    申请日:2023-11-10

    Abstract: 本发明提供一种基于文本的三维人体模型生成方法和装置,应用于计算机视觉技术领域。该方法包括:获取第一文本,所述第一文本用于描述目标对象的样貌特征;根据所述第一文本生成所述目标对象的第一图像;对参数化的三维人体模型进行初始化处理,并生成所述三维人体模型的第二图像;基于所述第一图像和所述第二图像更新所述三维人体模型的模型参数,以得到所述目标对象的三维模型;其中,所述第二图像为所述三维人体模型的二维图像。

    基于文本的三维人体模型生成方法和装置

    公开(公告)号:CN117237542A

    公开(公告)日:2023-12-15

    申请号:CN202311492951.0

    申请日:2023-11-10

    Abstract: 本发明提供一种基于文本的三维人体模型生成方法和装置,应用于计算机视觉技术领域。该方法包括:获取第一文本,所述第一文本用于描述目标对象的样貌特征;根据所述第一文本生成所述目标对象的第一图像;对参数化的三维人体模型进行初始化处理,并生成所述三维人体模型的第二图像;基于所述第一图像和所述第二图像更新所述三维人体模型的模型参数,以得到所述目标对象的三维模型;其中,所述第二图像为所述三维人体模型的二维图像。

    基于类别外部记忆的视频目标检测方法、系统、装置

    公开(公告)号:CN111723719A

    公开(公告)日:2020-09-29

    申请号:CN202010536900.3

    申请日:2020-06-12

    Abstract: 本发明属于领域,具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置,旨在解决现有技术中当辅助帧数量较小时目标检测性能下降明显的问题。本发明包括:先根据训练视频信息通过自注意机制训练视频目标检测模型,再通过训练好的视频目标检测模型和自注意机制获得待测视频增强的实例特征,最后将增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支得到目标检测结果。本发明降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确地进行目标检测。

    基于强化学习的行为识别视频帧采样方法及系统

    公开(公告)号:CN109800717A

    公开(公告)日:2019-05-24

    申请号:CN201910060129.4

    申请日:2019-01-22

    Abstract: 本发明涉及一种基于强化学习的行为识别视频帧采样方法及系统,所述行为识别视频帧采样方法包括:从待测试视频提取待测视频帧序列,并从待测视频帧序列中均匀采样T帧待测图像;基于行为识别的基础模型及各帧待测图像,确定对应帧待测图像的待测特征向量和待测行为预测;针对每帧待测图像,将待测特征向量和待测行为预测级联,得到待测状态序列;根据基于长短时记忆网络的智能体及待测状态序列,确定每帧待测图像的待测重要性得分;按照待测重要性得分的大小,从各帧待测图像中选取多帧待测视频的关键帧;根据各关键帧的待测行为预测,得到待测视频的行为预测;根据待测视频的行为预测,确定识别结果,从而降低无关帧带来的负面影响,降低噪声。

Patent Agency Ranking