-
公开(公告)号:CN117152698A
公开(公告)日:2023-12-01
申请号:CN202310989893.6
申请日:2023-08-07
Applicant: 暨南大学
IPC: G06V20/56 , G06V10/44 , G06V10/764 , G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本发明提供一种基于全局离群点特征压制的点云数据处理方法、系统和计算机设备,本方法先获取点云数据,利用M个点云采样通道对点云数据进行卷积编码特征提取,得到M个特征输出信息;计算点云数据中每一点云与其他点云的欧氏距离,得到对应每一点云的距离信息,基于距离信息,计算点云的局部贡献估计值,经多层卷积层拟合处理,得到用于衡量点云离群信息的点云权重分数;基于点云权重分数,将M个特征输出信息融合,得到第一特征压制结果。本发明使远离中心点的特征向量趋近于0,而靠近中心点的特征向量几乎不变,实现基于全局离群点的对特定点云特征的压制,提高分类准确性,并弥补了空间感的缺失。
-
公开(公告)号:CN119888023A
公开(公告)日:2025-04-25
申请号:CN202411558615.6
申请日:2024-11-04
Applicant: 暨南大学
Abstract: 本发明提供一种基于神经辐射场的音频驱动三维数字人生成方法及系统,首先构建姿势保持先验生成模型,通过融合音频特征和面部姿势特征,利用自注意力机制和交叉注意力机制学习两种模态特征之间的跨模态交互关系,生成与输入音频同步的面部姿势先验信息。然后,构建神经辐射场渲染模型,采用三平面哈希编码技术对三维空间进行高效采样,并通过注意力机制动态融合面部姿势先验和音频特征。最后,将生成的姿势先验输入神经辐射场渲染模型进行体积渲染,引入光线累积透射率计算,生成高保真的三维数字人。本发明提高了数字人的真实感和表现力,降低了渲染计算复杂度,实现了动态连贯、唇音同步的实时数字人生成。
-