-
公开(公告)号:CN118334183B
公开(公告)日:2025-02-18
申请号:CN202410483271.0
申请日:2024-04-22
Applicant: 北京林业大学
IPC: G06T13/20 , G10L15/26 , G10L15/18 , G06N3/0455
Abstract: 本发明属于人工智能和机器学习领域,具体涉及了一种基于语音输入生成三维动作的方法、系统及设备,旨在解决现有技术基于语音指令转化成3D动作的方法效果不好的问题。本发明包括:将音频数据转化为文本形式,并进行文本解析和指令验证得到文本数据;对文本数据进行标记化处理、词嵌入处理以及添加位置编码形成维度位置向量并输入到Transformer模型中,生成动作描述序列;通过连贯性分数函数评估动作序列在上下文中的连贯性并设置连贯性阈值筛选动作序列得到高质量动作系列;基于模型对高质量动作系列进行降噪处理、姿态捕捉和时间捕捉最终得到3D运动序列。本发明能确保对各种复杂指令的高准确率解析和动作生成。
-
公开(公告)号:CN118471250B
公开(公告)日:2025-02-07
申请号:CN202410798138.4
申请日:2024-06-20
Applicant: 北京林业大学
Abstract: 本发明属于语音处理技术领域,涉及一种输入语音自动生成口型和表情的方法,包括:将输入的语音进行特征提取,得到音频特征序列;构建音生视频模型,包括:将不同语言和地区的人脸讲话视频,输入采用神经动态时间规整、基于注意力的时间对齐和音视频时间位置编码同步的Diffusion Transformer模型,训练得到音生视频模型;将音频特征序列输入音生视频模型,得到口型表情同步视频。本发明能够根据输入的语音,生成对应的口型表情同步视频,能够提升用户体验,进一步提高了生成视频的同步精度,提高了模型实时处理能力,生成的口型表情同步视频更加自然,能够跨语言和文化背景工作,适应全球不同地区的内容需求。
-
公开(公告)号:CN118471250A
公开(公告)日:2024-08-09
申请号:CN202410798138.4
申请日:2024-06-20
Applicant: 北京林业大学
Abstract: 本发明属于语音处理技术领域,涉及一种输入语音自动生成口型和表情的方法,包括:将输入的语音进行特征提取,得到音频特征序列;构建音生视频模型,包括:将不同语言和地区的人脸讲话视频,输入采用神经动态时间规整、基于注意力的时间对齐和音视频时间位置编码同步的Diffusion Transformer模型,训练得到音生视频模型;将音频特征序列输入音生视频模型,得到口型表情同步视频。本发明能够根据输入的语音,生成对应的口型表情同步视频,能够提升用户体验,进一步提高了生成视频的同步精度,提高了模型实时处理能力,生成的口型表情同步视频更加自然,能够跨语言和文化背景工作,适应全球不同地区的内容需求。
-
公开(公告)号:CN118334183A
公开(公告)日:2024-07-12
申请号:CN202410483271.0
申请日:2024-04-22
Applicant: 北京林业大学
IPC: G06T13/20 , G10L15/26 , G10L15/18 , G06N3/0455
Abstract: 本发明属于人工智能和机器学习领域,具体涉及了一种基于语音输入生成三维动作的方法、系统及设备,旨在解决现有技术基于语音指令转化成3D动作的方法效果不好的问题。本发明包括:将音频数据转化为文本形式,并进行文本解析和指令验证得到文本数据;对文本数据进行标记化处理、词嵌入处理以及添加位置编码形成维度位置向量并输入到Transformer模型中,生成动作描述序列;通过连贯性分数函数评估动作序列在上下文中的连贯性并设置连贯性阈值筛选动作序列得到高质量动作系列;基于模型对高质量动作系列进行降噪处理、姿态捕捉和时间捕捉最终得到3D运动序列。本发明能确保对各种复杂指令的高准确率解析和动作生成。
-
-
-