-
公开(公告)号:CN101004911A
公开(公告)日:2007-07-25
申请号:CN200610001466.9
申请日:2006-01-17
Applicant: 国际商业机器公司
CPC classification number: G10L15/07 , G10L2021/0135
Abstract: 一种用于生成频率弯曲函数、和进行频率弯曲的方法及装置。该用于生成频率弯曲函数的方法包括:准备源说话者和目标说话者的训练语音;将所述训练语音进行帧对齐;从帧对齐的训练语音中选择对齐的帧;提取所选择的对齐的帧的相对应的共振峰参数组;以及根据相对应的共振峰参数组生成频率弯曲函数。该选择对齐的帧的步骤优选地选择已帧对齐的、源说话者和目标说话者的具有相同或相似上下文的相同或相似音素的中间的一对对齐的帧。所述生成弯曲函数的步骤优选地将相对应的共振峰参数组中的各对对应的共振峰参数作为分段线性频率弯曲函数中的关键点,以此来生成该频率弯曲函数。
-
公开(公告)号:CN101287043A
公开(公告)日:2008-10-15
申请号:CN200810091646.X
申请日:2008-04-11
Applicant: 国际商业机器公司
Inventor: 小查尔斯·W·克罗斯 , 伊哥·R.·贾布洛克夫 , E·M·艾德
IPC: H04M3/493
CPC classification number: G10L15/22
Abstract: 公开了用于提供与多模式应用之间的表达用户交互的方法、设备和产品,该多模式应用运行在多模式设备上的多模式浏览器中,该多模式设备支持包括话音模式以及一种或多种非话音模式的多种用户交互模式,该多模式应用通过VoiceXML解释器被有效耦合到语音引擎,所述方法包括:由多模式浏览器通过特定的用户交互模式接收来自用户的用户输入;由多模式浏览器根据用户输入确定对该用户的用户输出;由多模式浏览器根据用户输入确定用户输出的样式,该样式规定了对于至少一种其它用户交互模式的表达输出特性;以及由多模式浏览器根据样式呈现用户输出。
-