-
公开(公告)号:CN117083669A
公开(公告)日:2023-11-17
申请号:CN202180067617.3
申请日:2021-05-28
Applicant: 微软技术许可有限责任公司
IPC: G10L15/183
Abstract: 一种用于增强演讲期间的发音的方法和系统,该方法包括:接收音频数据,音频数据包括语音;对语音执行声学评分和语言评分中的至少一项;基于声学评分和语言评分来确定语音的一个或多个单词的发音分数;确定单词的发音分数不满足阈值分数;响应于确定发音分数不满足阈值分数,将该单词识别为误读的;以及响应于将该单词识别为误读的,输出单词及其发音分数。
-
公开(公告)号:CN116601702A
公开(公告)日:2023-08-15
申请号:CN202180080711.2
申请日:2021-09-13
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。
-