-
公开(公告)号:CN113314101B
公开(公告)日:2024-05-14
申请号:CN202110478784.9
申请日:2021-04-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/02 , G10L15/16 , G10L21/007
Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。
-
公开(公告)号:CN113409747B
公开(公告)日:2023-08-29
申请号:CN202110593727.5
申请日:2021-05-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开公开一种歌曲生成方法、装置、电子设备及存储介质,包括:获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;将歌词文本和乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;将第一编码输出向量、第一参考输出向量以及第一声纹特征向量输入至歌曲生成模型中的解码网络中,生成第一歌曲,其中,第一声纹特征向量为歌曲生成模型中与目标演唱者身份信息对应的声纹特征向量,第一歌曲为具有目标演唱者身份信息对应的演唱者的声纹信息及目标歌曲风格的歌曲。采用本公开的歌曲生成方法,至少解决现有在获取不同类别的歌曲的过程中存在效率低的问题。
-
公开(公告)号:CN110322760A
公开(公告)日:2019-10-11
申请号:CN201910611471.9
申请日:2019-07-08
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音数据生成方法、装置、终端及存储介质,涉及互联网技术领域,该方法包括:从待处理的视频中获取至少一个目标视频帧;对至少一个目标视频帧的手部图像进行手势识别,得到至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,目标语句包含至少一个手势类型对应的词语;根据目标语句,生成目标语句对应的语音数据。通过播放语音数据就可以了解到视频中的手语想要表达的内容,实现了听障人士与健听人士之间的无障碍交流。待处理的视频可以由普通摄像头拍摄得到,该方案不依赖特定的设备,可以直接在手机、电脑等终端上直接运行,没有额外的成本,可以更好地在听障人群中普及。
-
公开(公告)号:CN116386659A
公开(公告)日:2023-07-04
申请号:CN202310118537.7
申请日:2023-02-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音乐视频生成方法、装置、电子设备及存储介质,该方法包括:获取目标音乐的歌词序列、和弦信息集和节奏信息集,基于歌词序列确定歌词语义信息序列,歌词语义信息序列中的歌词语义信息的数量和歌词序列中歌词的句数相同,根据歌词语义信息序列和节奏信息集生成初始图片集,利用和弦信息集对初始图片集中的图片进行风格转换,得到目标图片集,基于目标图片集和目标音乐确定目标视频,目标视频包括目标音乐。本申请通过音乐节奏,和弦和文本的结合,得到了更多贴合文本和节奏的图片,且在此基础上,还利用和弦信息对图片做进一步风格转换,得到信息更丰富,和音乐更贴合的视频图片。
-
公开(公告)号:CN113314101A
公开(公告)日:2021-08-27
申请号:CN202110478784.9
申请日:2021-04-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/02 , G10L15/16 , G10L21/007
Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。
-
公开(公告)号:CN111326138A
公开(公告)日:2020-06-23
申请号:CN202010113619.9
申请日:2020-02-24
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音生成方法及装置。该语音生成方法包括:获取第一文本信息;将第一文本信息输入预设的韵律分析模型,得到第一隐声学特征;其中,第一隐声学特征为第一文本信息对应的语音的特征;将第一隐声学特征输入预设的与目标说话人对应的自适应声学模型,得到与目标说话人对应的第一声学特征;根据第一声学特征,生成与目标说话人和第一文本信息对应的语音。从而,无需获取目标说话人的双语信息,也无需获取目标说话人的特定语音,实现能够快速有效生成与目标说话人和目标语言对应的语音的目的。
-
公开(公告)号:CN116386659B
公开(公告)日:2025-04-01
申请号:CN202310118537.7
申请日:2023-02-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音乐视频生成方法、装置、电子设备及存储介质,该方法包括:获取目标音乐的歌词序列、和弦信息集和节奏信息集,基于歌词序列确定歌词语义信息序列,歌词语义信息序列中的歌词语义信息的数量和歌词序列中歌词的句数相同,根据歌词语义信息序列和节奏信息集生成初始图片集,利用和弦信息集对初始图片集中的图片进行风格转换,得到目标图片集,基于目标图片集和目标音乐确定目标视频,目标视频包括目标音乐。本申请通过音乐节奏,和弦和文本的结合,得到了更多贴合文本和节奏的图片,且在此基础上,还利用和弦信息对图片做进一步风格转换,得到信息更丰富,和音乐更贴合的视频图片。
-
公开(公告)号:CN116895266A
公开(公告)日:2023-10-17
申请号:CN202310822650.3
申请日:2023-07-05
Applicant: 北京达佳互联信息技术有限公司
IPC: G10H1/00
Abstract: 本公开关于一种歌曲生成方法、装置、电子设备及存储介质。所述方法包括:获取针对待生成的目标歌曲选择的原始歌曲和输入的歌词文本;提取原始歌曲的曲谱信息特征,以及确定歌词文本的文本统计信息;将曲谱信息特征和文本统计信息输入至预训练的曲谱生成模型,得到目标曲谱;目标曲谱的旋律线与原始歌曲的旋律线相同,且目标曲谱中各音符与歌词文本中各字符相匹配;根据目标曲谱,输出歌词为歌词文本的歌声音频,获得目标歌曲。采用本方法可以基于原始歌曲自动改编生成目标曲谱,以适配用户输入的歌词文本,能够得到与所选择歌曲旋律线相同且符合指定文本的旋律,保证了旋律和节奏的和谐性,提升了歌曲生成效果与处理效率。
-
公开(公告)号:CN116451773A
公开(公告)日:2023-07-18
申请号:CN202310434638.5
申请日:2023-04-21
Applicant: 北京达佳互联信息技术有限公司
IPC: G06N3/0895 , G06N3/0464 , G06N3/0455 , G06N3/044 , G10L25/27 , G10L25/48
Abstract: 本公开提供一种动作生成模型的训练方法、动作生成方法及装置,涉及计算机技术领域。该方法包括:获取第一音频样本、第一动作图像样本、第二音频样本和第二动作图像样本;利用第一音频样本训练音频编码器和音频量化器,得到训练完成的音频编码器和音频量化器;利用第一动作图像样本训练动作量化器和动作解码器,得到训练完成的动作量化器和动作解码器;利用第二音频样本和第二动作图像样本训练音频动作转换器,得到训练完成的音频动作转换器;依次连接训练完成的音频编码器、音频量化器、音频动作转换器、动作量化器和动作解码器,生成动作生成模型。该方法解决了相关技术中模型训练不充分以及泛化性能差的问题,提升模型的泛化性能。
-
公开(公告)号:CN110322760B
公开(公告)日:2020-11-03
申请号:CN201910611471.9
申请日:2019-07-08
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音数据生成方法、装置、终端及存储介质,涉及互联网技术领域,该方法包括:从待处理的视频中获取至少一个目标视频帧;对至少一个目标视频帧的手部图像进行手势识别,得到至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,目标语句包含至少一个手势类型对应的词语;根据目标语句,生成目标语句对应的语音数据。通过播放语音数据就可以了解到视频中的手语想要表达的内容,实现了听障人士与健听人士之间的无障碍交流。待处理的视频可以由普通摄像头拍摄得到,该方案不依赖特定的设备,可以直接在手机、电脑等终端上直接运行,没有额外的成本,可以更好地在听障人群中普及。
-
-
-
-
-
-
-
-
-