-
公开(公告)号:CN101546587A
公开(公告)日:2009-09-30
申请号:CN200810087922.5
申请日:2008-03-25
Applicant: 国际商业机器公司
Abstract: 本发明提供了在播放歌曲时自动显示视觉元素的方法和装置。根据本发明的一个方面,提供了一种在播放歌曲时自动显示视觉元素的方法,包括以下步骤:获取上述歌曲的歌词;获取上述歌曲的主题;利用视觉元素库,对上述歌词进行分析,以针对各句歌词获取与上述歌曲的主题相关的关键词,其中上述视觉元素库中的每个视觉元素都具有相关的主题和关键词;以及根据上述获取的歌曲的主题和各句歌词的关键词,在上述视觉元素库中选择合适的视觉元素进行显示。本发明的在播放歌曲时自动显示视觉元素的方法和装置可以将视觉效果按照歌曲的主题进行划分,从而可以根据播放歌曲的内容和意境,形成风格一致、主题统一的视觉效果展示给播放者。
-
公开(公告)号:CN101359473A
公开(公告)日:2009-02-04
申请号:CN200710139735.2
申请日:2007-07-30
Applicant: 国际商业机器公司
CPC classification number: G10L13/08 , G10L13/033 , G10L2021/0135
Abstract: 本发明提出了一种能够显著改进音色转换的质量,并保证转换的声音相似度的方法和装置。本发明在语音合成库中设置有若干标准说话人,根据不同的角色,本发明选用不同的标准说话人的声音进行语音合成,所述被选中的标准说话人的声音与原始角色之间已经存在一定程度的相似性。然后本发明将这种与原始声音具有一定程度相似性的标准语音进一步进行音色转换,以精确模仿原始说话人的声音,从而使得转换后的声音在保证相似度的同时,更加接近原始的语音特征。
-
公开(公告)号:CN101261623A
公开(公告)日:2008-09-10
申请号:CN200710086030.9
申请日:2007-03-07
Applicant: 国际商业机器公司
CPC classification number: G06F17/2863
Abstract: 本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。
-
公开(公告)号:CN1889170A
公开(公告)日:2007-01-03
申请号:CN200510079778.7
申请日:2005-06-28
Applicant: 国际商业机器公司
CPC classification number: G10L13/04
Abstract: 本发明提供一种将录制的语音模板与TTS系统相结合生成高质量的合成语音的方法和系统。在本发明中:在包含预先录制的语音模板的数据库中搜索与希望合成语音的文本内容最匹配的语音模板;将最匹配的语音模板截成多个片断,生成与文本内容相同的保留片断以及与文本内容不同的差异片断;对与差异片断对应的文本内容部分进行语音合成;以及将合成的语音与最匹配的语音模板的保留片断进行拼接。采用本发明的方法和系统产生的合成语音继承了人说话的韵律结构,极大提高了合成语音的质量。此外,在本发明中,采用编辑距离算法搜索最匹配的语音模板,可以保证输出的最匹配模式具有最小的编辑操作次数,从而避免了很多接合点。
-
公开(公告)号:CN1282072A
公开(公告)日:2001-01-31
申请号:CN99110695.4
申请日:1999-07-27
Applicant: 国际商业机器公司
CPC classification number: G06K9/6293 , G06K9/726 , G06K2209/01 , G10L15/22
Abstract: 本发明公开了一种可以对语音识别结果中的错误进行校正的方法和语音识别系统。本发明的错误校正方法包括步骤:对输出的语音识别结果中的错误进行标记;用基于字形输入的方法输入与标记的错误相对应的正确字符;对基于字形的输入进行识别;显示候选的正确字符;用户从候选的正确字符中选出所需字符;和使用选出的字符代替错误的字符,所述方法的特征在于还包括步骤:使用错误字符的语音信息来对候选的正确字符进行筛选处理。
-
公开(公告)号:CN103853749B
公开(公告)日:2017-04-26
申请号:CN201210505562.2
申请日:2012-11-30
Applicant: 国际商业机器公司
IPC: G06F17/30
Abstract: 本发明提供了一种基于模式的音频检索方法和系统。所述音频检索方法包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。利用本发明的方法和系统,能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索,从而提供更准确合理的音频检索结果。
-
公开(公告)号:CN104217149A
公开(公告)日:2014-12-17
申请号:CN201310210886.8
申请日:2013-05-31
Applicant: 国际商业机器公司
IPC: G06F21/32
Abstract: 本发明公开了一种用户认证的方法和设备。所述方法包括:向所述用户发送问题提示,所述问题提示要求用户说出语音片段以及动态问题的答案,所述语音片段具有相应的在认证之前训练出的文本相关的说话人识别模型;响应于接收所述语音回答,从述语音回答中切分出所述语音片段部分以及动态问题答案部分;验证所述语音回答中所述语音片段以及动态问题答案之间的边界平滑度。通过所述方法和设备,可以更为有效的防止用户认证时的录音欺诈。
-
公开(公告)号:CN102237081B
公开(公告)日:2013-04-24
申请号:CN201010163229.9
申请日:2010-04-30
Applicant: 国际商业机器公司
IPC: G10L25/48
CPC classification number: G10L25/48
Abstract: 本发明提出了一种对输入语音进行评估的有效方法和系统。所述方法包括:接收输入语音数据;获取韵律约束条件;按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及提供所述评估的结果。所述系统包括:输入语音数据接收装置、韵律约束条件获取装置、评估装置、以及结果提供装置。本发明对于输入语音数据没有任何限制,也就是说用户可以根据特定文字/语音进行朗读或者跟读,也可以自由发挥。
-
公开(公告)号:CN101593516B
公开(公告)日:2011-08-24
申请号:CN200810098474.9
申请日:2008-05-28
Applicant: 国际商业机器公司
IPC: G10L13/04
Abstract: 本发明提供一种用于在客户端对文本内容进行语音合成的方法。该方法包括:基于客户端的语料库中的当前语料单元集合S当前,对文本内容进行语音合成;响应于判断需要更新客户端语料库的当前语料单元集合:分析文本内容,并生成具有相应语境特征的目标单元的列表,基于比客户端语料库的当前语料单元集合S当前更丰富的语料单元集合S总,根据语境特征为每个目标单元选择多个候选语料单元,根据多个候选单元为文本内容确定可用于语音合成的语料单元;以及基于所确定的语料单元,更新客户端语料库的当前语料单元集合。本发明还提供相应的系统。根据本发明的技术方案,客户端的TTS系统能够随着用户对该系统的进一步使用自适应的更新语料库,从而获得语音合成质量的有效改善。
-
公开(公告)号:CN102017513A
公开(公告)日:2011-04-13
申请号:CN200980115671.X
申请日:2009-03-10
Applicant: 国际商业机器公司
IPC: H04L9/32
CPC classification number: G06F17/289 , H04L63/0442 , H04L63/104
Abstract: 一种用于实时网络通信的系统及方法,提供会话标识符(会话ID)作为用于在客户端之间的群组通信(20,22)的公开密钥,并且提供表示多个客户端(12)中的每一个的私有密钥的频道标识符(频道ID)。该频道标识符包括客户端特定属性,该属性用以指示该群组通信的分组准则。基于该公开密钥及私有密钥组合经由网络建立介于客户端(12)与服务(14)之间的动态通信链路,以使得基于该私有密钥及该公开密钥的该属性而实现群组通信。通过使用翻译服务(16)来翻译通信,该翻译服务(16)使用与该私有密钥及该公开密钥的组合相关联的该属性而以指定语言提供响应信息以实现多语种实时通信。
-
-
-
-
-
-
-
-
-