-
公开(公告)号:CN107516511B
公开(公告)日:2021-05-25
申请号:CN201610410602.3
申请日:2016-06-13
Applicant: 微软技术许可有限责任公司
Abstract: 描述了意图识别和情绪的文本到语音学习系统。示例意图识别系统包括处理器和存储指令的存储器。指令致使处理器接收包括说出的单词的语音输入。指令致使处理器基于语音输入来生成文本结果并基于语音输入来生成声学特征注释。指令还致使处理器将意图模型应用到文本结果和声学特征注释以基于语音输入来识别意图。用于适配情绪的文本到语音模型的示例系统包括处理器和存储器。存储器存储致使处理器接收包括语音输入的训练示例并接收包括与该语音输入相关联的情绪信息的标记数据的指令。指令还致使处理器从训练示例中提取音频信号矢量并基于音频信号矢量和标记数据来生成经情绪适配的声音字体模型。
-
公开(公告)号:CN106062867B
公开(公告)日:2019-10-15
申请号:CN201580010713.9
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN107516511A
公开(公告)日:2017-12-26
申请号:CN201610410602.3
申请日:2016-06-13
Applicant: 微软技术许可有限责任公司
CPC classification number: G10L25/63 , G06F17/2785 , G06N3/02 , G10L15/265 , G10L15/063 , G10L25/03 , H04M2250/74
Abstract: 描述了意图识别和情绪的文本到语音学习系统。示例意图识别系统包括处理器和存储指令的存储器。指令致使处理器接收包括说出的单词的语音输入。指令致使处理器基于语音输入来生成文本结果并基于语音输入来生成声学特征注释。指令还致使处理器将意图模型应用到文本结果和声学特征注释以基于语音输入来识别意图。用于适配情绪的文本到语音模型的示例系统包括处理器和存储器。存储器存储致使处理器接收包括语音输入的训练示例并接收包括与该语音输入相关联的情绪信息的标记数据的指令。指令还致使处理器从训练示例中提取音频信号矢量并基于音频信号矢量和标记数据来生成经情绪适配的声音字体模型。
-
公开(公告)号:CN111681641B
公开(公告)日:2024-02-06
申请号:CN202010460593.5
申请日:2020-05-26
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于基于短语的端对端文本到语音(TTS)合成的方法和装置。可以获得文本。可以识别所述文本中的目标短语。可以确定所述目标短语的短语上下文。可以至少基于所述目标短语和所述短语上下文来生成与所述目标短语对应的声学特征。可以基于所述声学特征来生成与所述目标短语对应的语音波形。
-
公开(公告)号:CN108780643B
公开(公告)日:2023-08-25
申请号:CN201680082098.7
申请日:2016-11-21
Applicant: 微软技术许可有限责任公司
Abstract: 公开了一种自动配音方法。该方法包括:从媒体内容的音频部分提取一声音的语音(504);为所提取的所述声音的语音获得声纹模型(506);通过使用所述声纹模型来处理所提取的语音以生成替代语音(508);以及在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音(510)。
-
-
公开(公告)号:CN110998725A
公开(公告)日:2020-04-10
申请号:CN201880042016.5
申请日:2018-04-19
Applicant: 微软技术许可有限责任公司
Abstract: 本公开内容提供了用于在人机对话中生成响应的方法和装置。可以在所述对话中接收第一声音输入。可以从所述第一声音输入中提取第一音频属性,其中所述第一音频属性指示用户的第一状态。可以在所述对话中接收第二声音输入。可以从所述第二声音输入中提取第二音频属性,其中所述第二音频属性指示用户的第二状态。确定所述第二音频属性和所述第一音频属性之间的差,其中所述差指示所述用户从所述第一状态到所述第二状态的状态变化。至少基于所述状态变化来生成对所述第二声音输入的响应。
-
公开(公告)号:CN110718209A
公开(公告)日:2020-01-21
申请号:CN201910916818.0
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN110634466A
公开(公告)日:2019-12-31
申请号:CN201810551651.8
申请日:2018-05-31
Applicant: 微软技术许可有限责任公司
IPC: G10L13/02
Abstract: 本文公开的具有高感染力的TTS处理技术,除了考虑语义学特征、语言学特征之外,还对训练文本中的各个句子赋予了句子ID以区分训练文本中的各个句子,这些句子ID也被作为训练特征,引入到机器学习模型训练的过程中,从而使得机器学习模型能够学习到句子声学编码随着句子的上下文的变化规律。在使用训练后的模型进行TTS处理时,能够在韵律、语气方面具有自然的变化的输出语音,增强TTS的感染力。利用本文提供的TTS处理技术,可以生成具有高感染力有声读物,以该TTS处理技术作为核心,可以构建出具有高感染力的有声读物的在线生成系统。
-
公开(公告)号:CN106062867A
公开(公告)日:2016-10-26
申请号:CN201580010713.9
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
-
-
-
-
-
-
-
-