-
公开(公告)号:CN117576786B
公开(公告)日:2024-04-16
申请号:CN202410059351.3
申请日:2024-01-16
Applicant: 北京大学深圳研究生院
Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。
-
公开(公告)号:CN112731291B
公开(公告)日:2024-02-20
申请号:CN202011096916.3
申请日:2020-10-14
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
IPC: G01S5/22 , G06N3/0464
Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。
-
公开(公告)号:CN116129051A
公开(公告)日:2023-05-16
申请号:CN202310074209.1
申请日:2023-02-07
Applicant: 北京大学深圳研究生院
IPC: G06T17/00 , G06N3/0464 , G06N3/09
Abstract: 本发明涉及一种基于图和注意力交织的三维人体姿态估计方法及系统。该系统通过预训练的二维姿态检测器从图像特征中提取人体的二维骨架信息;将二维骨架嵌入到高维空间;利用图和注意力交织的网络模块挖掘骨架的局部和全局信息;利用U型结构的多层感知机模块捕获骨架的多层次信息;利用回归头模块将高维数据回归到三维骨架;利用关节点的平均误差作为模型训练的损失函数。本发明结合了图卷积和注意力机制在捕获骨架的局部和全局信息上的优势,允许图卷积模块和注意力模块之间双向通信以优势互补,可有效加强模型对人体骨架的建模能力,能够估计得到更接近真实三维姿态的结果。
-
公开(公告)号:CN115019397A
公开(公告)日:2022-09-06
申请号:CN202210680841.6
申请日:2022-06-15
Applicant: 北京大学深圳研究生院
IPC: G06V40/20 , G06N3/04 , G06N3/08 , G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统。该方法对输入的骨架动作序列进行数据增强得到增强后的两个动作序列;利用第一编码器和第二编码器即动量更新编码器将其编码成特征向量;利用预测器得到另一组特征向量,通过损失函数构造有效的单个数据流的特征空间。进一步地,计算骨架序列的运动信息和骨骼信息,并同样作为上述步骤的输入,并在得到特征之后计算特征相似度,数据流内部的相似度矩阵做尖锐处理,并在不同数据流间投票融合,得到相似度伪标签,将时空信息有效聚合后约束单个数据流的分布,来训练更优的模型。本发明训练得到的模型可以在实际应用中取得很好的行为识别效果。
-
公开(公告)号:CN112731289A
公开(公告)日:2021-04-30
申请号:CN202011456914.0
申请日:2020-12-10
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
IPC: G01S5/18
Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段,首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差,为提取的各个方向的双耳互相关函数和双耳强度差建立模板;然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段,同样首先对信号提取特征,接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配,最后通过加权融合不同特征不同频带的相似度,得到最终的声源方向相似度,取最大相似度方向为声源方向。实验在不同种类噪声环境下进行,实验结果表明本发明可以在一定程度上抵抗噪声的干扰,实现声源的角度定位问题。
-
公开(公告)号:CN110501673A
公开(公告)日:2019-11-26
申请号:CN201910808412.0
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。
-
公开(公告)号:CN109147763A
公开(公告)日:2019-01-04
申请号:CN201810752379.X
申请日:2018-07-10
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
Abstract: 本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视觉特征进行建模并生成声学模板和视觉模板,可有效地对声学特征的时频特性和视觉特征的时空特性进行建模;再次,根据声学模板和视觉模板,可对待检测的音视频计算得到关键词和非关键词的声学和视觉似然度;最后,对声学和视觉似然度计算对应的熵值来生成声学模态和视觉模态的可靠度权重,以实现音视频的决策层加权融合估计。本发明能够充分利用声学噪声条件下视觉信息的贡献,提高了关键词识别的性能。
-
公开(公告)号:CN103903009A
公开(公告)日:2014-07-02
申请号:CN201410119481.8
申请日:2014-03-27
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于机器视觉的工业品检测方法,本发明为:1)对每种类型的工业产品进行采样与统计,得出该类型工业产品自身色差分布的统计模型和纹理方差分布的统计模型;2)从色差分布的统计模型中提取工业产品的色差特征,从纹理方差分布的统计模型中提取工业产品的纹理特征,根据提取的色差特征和纹理特征建立特征空间;3)利用支持向量机SVM对该特征空间进行划分,得到最优超平面作为对待检测物品进行检测的决策分类器,即分类阈值;4)利用粒子滤波框架对待测物品的色差与纹理进行采样,得到待检样本的统计向量;然后将该统计向量输入所述决策分类器,得到待测物品的类别。本发明大大改善了现行工业化生产中检测工序。
-
公开(公告)号:CN117456552A
公开(公告)日:2024-01-26
申请号:CN202311267861.1
申请日:2023-09-26
Applicant: 北京大学深圳研究生院
IPC: G06V40/10 , G06V10/40 , G06V10/774 , G06V10/80
Abstract: 本申请公开了一种基于人体姿态估计的人体解析方法及相关装置,所述方法包括获取待解析图像的人体关键点图;将所述人体关键点图和所述待解析图像输入经过训练的人体解析模型中的人体解析模块,通过人体解析模块提取人体解析特征图;将所述人体解析特征图输入所述人体解析模型中的像素解码器,通过所述像素解码器提取若干第一特征图;基于所述若干第一特征图以及所述人体解析模型中的Transformer解码器,确定所述待解析图像对应的人体部位分割图。本申请将人体姿态估计与人体解析相结合,将获取到的人体关键点图作为人体解析的先验知识,使得Transformer获知待解析图像中不同类型的人体关键点,提高了人体解析的准确性。
-
公开(公告)号:CN115908497A
公开(公告)日:2023-04-04
申请号:CN202211563969.0
申请日:2022-12-07
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。本方法利用人体拓扑的分层次结构和运动约束,充分捕捉信息密度稀疏的人体关节点数据中的先验信息,有效缓解了人体末端关节点估计精度不足的问题。本方法构建了一种多层次特征提取聚合框架,可以由细粒度到粗粒度依次提取关节点层次、肢体层次、全身层次的特征信息;构建了同一肢体内关节点间的运动约束关系,利用父节点辅助高误差的末端关节点的预测。本发明充分利用人体拓扑中高度结构化的先验信息,无需引入额外的数据,便可在控制模型参数量的情况下获得更丰富的人体姿态表征学习能力。
-
-
-
-
-
-
-
-
-