-
公开(公告)号:CN119516051A
公开(公告)日:2025-02-25
申请号:CN202411486370.0
申请日:2024-10-23
Applicant: 北京邮电大学
Abstract: 本发明提供一种可控的音乐驱动三维舞蹈动作生成模型训练方法、生成方法及装置,包括:构建包含音乐‑三维舞蹈动作数据以及二维关键点数据的训练集;构建初始生成模型,包括主干网络和控制网络;主干网络以音乐和三维舞蹈动作数据为输入,输出预测动作数据;控制网络以音乐、三维舞蹈动作数据和二维关键点数据为输入,输出运动特征;将运动特征与主干网络提取的中间特征进行拼接,以控制预测动作数据;采用训练集对初始生成模型进行两阶段的训练,最终得到三维舞蹈动作生成模型。本发明采用训练得到的三维舞蹈动作生成模型能够用于生成与音乐匹配的三维舞蹈动作数据,且具备可控生成能力。
-
公开(公告)号:CN116843806A
公开(公告)日:2023-10-03
申请号:CN202310769585.2
申请日:2023-06-27
Applicant: 北京邮电大学
IPC: G06T13/40 , G06T3/00 , G06T9/00 , G06N3/0499 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明提供一种人脸动画合成方法、系统和存储介质,所述方法包括:获取包含人脸的源图像和驱动图像;利用关键点编码器和特征提取器从源图像和驱动图像中分别获得源关键点特征和驱动关键点特征,并且利用源编码器对源图像进行编码获得源图像特征;分别对源图像特征和源关键点特征添加可学习的补充特征;然后基于缩放点积自注意力机制进行线性注意的隐式扭曲获得第一图像特征;基于残差连接获得第二图像特征;将第一图像特征和第二图像特征叠加获得合成图像特征,再通过解码器解码后输出图片,拼接逐帧输出的图片生成包含人脸的动画。本发明能够降低隐式扭曲注意力模块的复杂度、提高计算效率。
-
公开(公告)号:CN116665845A
公开(公告)日:2023-08-29
申请号:CN202310558652.6
申请日:2023-05-17
Applicant: 北京邮电大学
IPC: G16H20/70 , G06V20/40 , G06V40/20 , G06V10/774 , G06V10/82
Abstract: 本发明提供一种基于多模态数据用户情绪自测系统,包括:信息获取模块、多模态数据处理模块、数据存储模块和评估模块;信息获取模块接收用户个人信息;多模态数据处理模块中,量表自测模块向用户提供情绪测试量表并计算分数;语音检测模块向用户发送带有多种情感激发的问题,并收集答复语音;对答复语音进行VAD处理后,由预设模型提取音频特征;离线状态下,将答复语音转换为文本数据,提取文本情感特征;视频检测模块向用户发送带有多种情感激发的视频,并收集用户观看时的行为视频,由预设模型提取其中的视频特征;评估模块根据上述得到的特征,得到情绪分析数据及评估值。本发明的系统支持远程自测,医疗成本低,检测流程标准且客观。
-
公开(公告)号:CN117649861B
公开(公告)日:2024-08-20
申请号:CN202311430903.9
申请日:2023-10-31
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于帧级别情感状态对齐的语音情感识别方法和系统,所述方法包括:利用预训练的语音情感识别模型对输入的语音数据进行语音情感识别,得到句子级别语音情感识别结果。其中,在所述语音情感识别模型的预训练过程中,对于训练集包含的语音数据提取帧级别深层情感表征,利用预训练的聚类模型基于帧级别深层情感表征推理得到帧级别情感伪标签,使用包含语音数据和其帧级别情感伪标签的训练集训练得到帧级别情感状态对齐模型,通过对所述帧级别情感状态对齐模型结合情感标签进行迁移学习训练得到所述语音情感识别模型。本发明能够解决语音样本中不一致帧的干扰,并避免成本昂贵的问题。
-
公开(公告)号:CN117238275A
公开(公告)日:2023-12-15
申请号:CN202311071256.7
申请日:2023-08-24
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN116524896A
公开(公告)日:2023-08-01
申请号:CN202310448831.4
申请日:2023-04-24
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于发音生理建模的发音反演方法及系统,在设定的语言体系下,结合强化算法与语音合成模型从自然语音中建立所设定语言体系的标准音素音姿对照合集。利用该合集将自然语音转换成相应的音姿合集,将音姿合集输入语音合成模型生成合成语音与发音器官运动轨迹,对输入的音姿合集与生成的合成语音作增广操作,并将自然语音纳入语音集中,以构建用于训练发音反演模型的语音和发音生理样本集。从样本集的语音信号中提取特征输入到基于深度神经网络的发音反演模型中,预测出发音器官运动轨迹,训练得到发音反演模型。本发明可以降低采集和处理发音生理数据的成本,同时覆盖了更多的发音样本,训练得到的发音反演模型更鲁棒。
-
公开(公告)号:CN115414042B
公开(公告)日:2023-03-17
申请号:CN202211096131.5
申请日:2022-09-08
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于情感信息辅助的多模态焦虑检测方法及装置,该方法包括:获取文本数据集和语音信号集;将各文本数据分别输入至文本情感数据清洗模型,得到各情感类别,并清洗掉情感类别与第一情感不一致的文本数据,得到第二文本数据集;将各语音信号分别输入至语音情感数据清洗模型,得到各语音信号对应的情感类别,清洗掉情感类别与第一情感不一致的语音信号,得到第二语音信号集;将第二文本数据集输入至文本焦虑检测模型,得到文本模态特征,将第二语音信号集输入至语音焦虑检测模型,得到语音模态特征,将文本模态特征和语音模态特征进行特征融合,并基于融合后的特征得到被测者的焦虑分类结果。该方法可准确的检测被测者的焦虑状态。
-
公开(公告)号:CN118486293A
公开(公告)日:2024-08-13
申请号:CN202410673948.7
申请日:2024-05-28
Applicant: 北京邮电大学
IPC: G10L13/027 , G10L13/10 , G10L13/02 , G10L19/00 , G10L25/03
Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。
-
公开(公告)号:CN116741144B
公开(公告)日:2024-07-16
申请号:CN202310607980.0
申请日:2023-05-26
Applicant: 北京邮电大学
IPC: G10L13/033 , G10L25/30
Abstract: 本发明提供一种语音音色转换方法和系统,所述方法包括:输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征,利用内容向量提取模型去除样本语音的音色,利用基频编码器提取基频特征,利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器,将样本语音的线性谱输入后验编码器,利用Flow模型对齐先验编码器和后验编码器的输出,计算概率分布距离作为损失函数,最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中,模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题,可以对任意说话人的音色建模,适用性更广。
-
公开(公告)号:CN116843806B
公开(公告)日:2024-07-12
申请号:CN202310769585.2
申请日:2023-06-27
Applicant: 北京邮电大学
IPC: G06T13/40 , G06T3/04 , G06T9/00 , G06N3/0499 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明提供一种人脸动画合成方法、系统和存储介质,所述方法包括:获取包含人脸的源图像和驱动图像;利用关键点编码器和特征提取器从源图像和驱动图像中分别获得源关键点特征和驱动关键点特征,并且利用源编码器对源图像进行编码获得源图像特征;分别对源图像特征和源关键点特征添加可学习的补充特征;然后基于缩放点积自注意力机制进行线性注意的隐式扭曲获得第一图像特征;基于残差连接获得第二图像特征;将第一图像特征和第二图像特征叠加获得合成图像特征,再通过解码器解码后输出图片,拼接逐帧输出的图片生成包含人脸的动画。本发明能够降低隐式扭曲注意力模块的复杂度、提高计算效率。
-
-
-
-
-
-
-
-
-