-
公开(公告)号:CN117083669A
公开(公告)日:2023-11-17
申请号:CN202180067617.3
申请日:2021-05-28
Applicant: 微软技术许可有限责任公司
IPC: G10L15/183
Abstract: 一种用于增强演讲期间的发音的方法和系统,该方法包括:接收音频数据,音频数据包括语音;对语音执行声学评分和语言评分中的至少一项;基于声学评分和语言评分来确定语音的一个或多个单词的发音分数;确定单词的发音分数不满足阈值分数;响应于确定发音分数不满足阈值分数,将该单词识别为误读的;以及响应于将该单词识别为误读的,输出单词及其发音分数。
-
公开(公告)号:CN116601702A
公开(公告)日:2023-08-15
申请号:CN202180080711.2
申请日:2021-09-13
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。
-
公开(公告)号:CN115602145A
公开(公告)日:2023-01-13
申请号:CN202110721773.9
申请日:2021-06-28
Applicant: 微软技术许可有限责任公司(US)
IPC: G10L13/08
Abstract: 根据本公开的实现,提出了一种基于文本生成语音的方案。在该方案中,生成与文本对应的初始音素序列,初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列,附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间,基于第一音素序列来生成第二音素序列。基于第二音素序列,确定与文本对应的自然口语类型的语音。以此方式,该方案能够基于自然口语类型的附加音素和多个专家模型来生成具有多变韵律的更真实的自然口语类型的语音。
-
-