-
公开(公告)号:CN110998725B
公开(公告)日:2024-04-12
申请号:CN201880042016.5
申请日:2018-04-19
Applicant: 微软技术许可有限责任公司
Abstract: 本公开内容提供了用于在人机对话中生成响应的方法和装置。可以在所述对话中接收第一声音输入。可以从所述第一声音输入中提取第一音频属性,其中所述第一音频属性指示用户的第一状态。可以在所述对话中接收第二声音输入。可以从所述第二声音输入中提取第二音频属性,其中所述第二音频属性指示用户的第二状态。确定所述第二音频属性和所述第一音频属性之间的差,其中所述差指示所述用户从所述第一状态到所述第二状态的状态变化。至少基于所述状态变化来生成对所述第二声音输入的响应。
-
公开(公告)号:CN108806655A
公开(公告)日:2018-11-13
申请号:CN201710284144.8
申请日:2017-04-26
Applicant: 微软技术许可有限责任公司
IPC: G10H7/00
CPC classification number: G10H1/0025 , G10H2210/125 , G10H2220/011 , G10H2220/441 , G10H2240/085 , G10H2240/131 , G10L13/00 , G10H7/00 , G10H2210/101 , G10H2210/111 , G10H2210/151
Abstract: 根据本公开的实现,提供了一种支持机器自动歌曲生成的方案。在该方案中,用户的输入被用于确定用户关于待生成歌曲的创作意图。基于创作意图生成用于歌曲的模板,该模板指示歌曲的旋律和歌词相对于旋律的分布。然后,至少部分基于该模板,生成歌曲的歌词。由此,可以自动地创作出符合用户创作意图并且相互匹配的旋律和歌词。
-
公开(公告)号:CN108780643A
公开(公告)日:2018-11-09
申请号:CN201680082098.7
申请日:2016-11-21
Applicant: 微软技术许可有限责任公司
CPC classification number: G10L13/00 , G06F17/289 , G10L15/26
Abstract: 公开了一种自动配音方法。该方法包括:从媒体内容的音频部分提取一声音的语音(504);为所提取的所述声音的语音获得声纹模型(506);通过使用所述声纹模型来处理所提取的语音以生成替代语音(508);以及在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音(510)。
-
-
公开(公告)号:CN110634466B
公开(公告)日:2024-03-15
申请号:CN201810551651.8
申请日:2018-05-31
Applicant: 微软技术许可有限责任公司
IPC: G10L13/02
Abstract: 本文公开的具有高感染力的TTS处理技术,除了考虑语义学特征、语言学特征之外,还对训练文本中的各个句子赋予了句子ID以区分训练文本中的各个句子,这些句子ID也被作为训练特征,引入到机器学习模型训练的过程中,从而使得机器学习模型能够学习到句子声学编码随着句子的上下文的变化规律。在使用训练后的模型进行TTS处理时,能够在韵律、语气方面具有自然的变化的输出语音,增强TTS的感染力。利用本文提供的TTS处理技术,可以生成具有高感染力有声读物,以该TTS处理技术作为核心,可以构建出具有高感染力的有声读物的在线生成系统。
-
公开(公告)号:CN113301352B
公开(公告)日:2023-09-01
申请号:CN202010108871.0
申请日:2020-02-21
Applicant: 微软技术许可有限责任公司
IPC: H04N21/2187 , H04N21/234 , H04N21/258 , H04N21/4402 , H04N21/45 , H04N21/472 , H04N21/4788 , H04N21/81
Abstract: 本公开提供了用于在视频播放期间进行自动聊天的方法和装置。可以获得用户侧信息。可以从所述视频中检测视频信息。可以至少基于所述用户侧信息和所述视频信息来确定响应。可以在会话中提供所述响应。
-
公开(公告)号:CN108806655B
公开(公告)日:2022-01-07
申请号:CN201710284144.8
申请日:2017-04-26
Applicant: 微软技术许可有限责任公司
IPC: G10H7/00
Abstract: 根据本公开的实现,提供了一种支持机器自动歌曲生成的方案。在该方案中,用户的输入被用于确定用户关于待生成歌曲的创作意图。基于创作意图生成用于歌曲的模板,该模板指示歌曲的旋律和歌词相对于旋律的分布。然后,至少部分基于该模板,生成歌曲的歌词。由此,可以自动地创作出符合用户创作意图并且相互匹配的旋律和歌词。
-
公开(公告)号:CN112951198A
公开(公告)日:2021-06-11
申请号:CN201911156831.7
申请日:2019-11-22
Applicant: 微软技术许可有限责任公司
IPC: G10L13/02 , G10L13/033 , G10H7/00 , G10H1/00
Abstract: 本公开提供了用于歌声合成的方法和装置。可以接收从乐谱中提取的第一乐谱音素信息,所述第一乐谱音素信息包括第一音素以及与所述第一音素相对应的音符的音高和节拍。可以基于所述第一乐谱音素信息,生成与所述第一音素相对应的基频差量和频谱参数。可以通过利用所述基频差量调节所述音符的音高,获得与所述第一音素相对应的基频。可以至少部分地基于所述基频和所述频谱参数,生成与所述第一音素相对应的声学波形。
-
公开(公告)号:CN106688034B
公开(公告)日:2020-11-13
申请号:CN201580048224.2
申请日:2015-09-07
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。
-
公开(公告)号:CN113301352A
公开(公告)日:2021-08-24
申请号:CN202010108871.0
申请日:2020-02-21
Applicant: 微软技术许可有限责任公司
IPC: H04N21/2187 , H04N21/234 , H04N21/258 , H04N21/4402 , H04N21/45 , H04N21/472 , H04N21/4788 , H04N21/81
Abstract: 本公开提供了用于在视频播放期间进行自动聊天的方法和装置。可以获得用户侧信息。可以从所述视频中检测视频信息。可以至少基于所述用户侧信息和所述视频信息来确定响应。可以在会话中提供所述响应。
-
-
-
-
-
-
-
-
-