基于视觉语言模型的三维人体行为识别网络训练方法

    公开(公告)号:CN117576786A

    公开(公告)日:2024-02-20

    申请号:CN202410059351.3

    申请日:2024-01-16

    Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。

    基于人眼动态变化的三维人脸重建方法、装置及存储介质

    公开(公告)号:CN116993929B

    公开(公告)日:2024-01-16

    申请号:CN202311263345.1

    申请日:2023-09-27

    Abstract: 本申请公开了一种基于人眼动态变化的三维人脸重建方法、装置及存储介质,方法包括:利用初始三维人脸模型确定的三维人脸来确定渲染图像;利用眼状态检测器确定闭眼概率,基于闭眼概率来对人眼关键点进行调整以得到调整后的训练图像;基于渲染图像、训练图像和调整后的训练图像确定的混合损失函数和动态损失函数训练初始三维人脸模型,以得到三维人脸模型;基于三维人脸模型生成重建三维人脸。本申请通过眼状态检测器捕捉的动态细节来确定闭眼概率,根据闭眼概率来对人眼关键点进行调整,通过在弱监督学习过程中引入利用调整后的人眼关键点的动态损失函数,解决了人脸局部区域三维重建的不一致性问题,提高了重建三维人(56)对比文件Jingxiang Sun et al.Next3D:Generative Neural Texture Rasterizationfor 3D-Aware Head Avatars.arxiv.2023,第1-12页.

    基于人眼动态变化的三维人脸重建方法、装置及存储介质

    公开(公告)号:CN116993929A

    公开(公告)日:2023-11-03

    申请号:CN202311263345.1

    申请日:2023-09-27

    Abstract: 本申请公开了一种基于人眼动态变化的三维人脸重建方法、装置及存储介质,方法包括:利用初始三维人脸模型确定的三维人脸来确定渲染图像;利用眼状态检测器确定闭眼概率,基于闭眼概率来对人眼关键点进行调整以得到调整后的训练图像;基于渲染图像、训练图像和调整后的训练图像确定的混合损失函数和动态损失函数训练初始三维人脸模型,以得到三维人脸模型;基于三维人脸模型生成重建三维人脸。本申请通过眼状态检测器捕捉的动态细节来确定闭眼概率,根据闭眼概率来对人眼关键点进行调整,通过在弱监督学习过程中引入利用调整后的人眼关键点的动态损失函数,解决了人脸局部区域三维重建的不一致性问题,提高了重建三维人脸的准确性。

    基于视觉语言模型的三维人体行为识别网络训练方法

    公开(公告)号:CN117576786B

    公开(公告)日:2024-04-16

    申请号:CN202410059351.3

    申请日:2024-01-16

    Abstract: 本申请公开了一种基于视觉语言模型的三维人体行为识别网络训练方法,方法包括将点云视频输入四维点云编码器确定点云特征嵌入;将RGB视频和文本数据输入视觉语言模型确定视频特征嵌入和文本特征嵌入;基于点云特征嵌入、文本特征嵌入及视频特征嵌入确定对齐损失项,基于点云特征嵌入确定第一分类损失项,基于视频特征嵌入确定第二分类损失项;基于对齐损失项、第一分类损失项和第二分类损失项对初始三维人体行为识别网络进行训练,以得到三维人体行为识别网络。本申请通过将点云特征嵌入分别与视频特征嵌入和文本特征嵌入对齐,来从大规模图像-文本对的训练中学习共享的视觉和文本空间,提高了三维人体行为识别网络的模型性能。

Patent Agency Ranking