-
公开(公告)号:CN104700831B
公开(公告)日:2018-03-06
申请号:CN201310652731.X
申请日:2013-12-05
Applicant: 国际商业机器公司
Abstract: 本发明公开了一种分析音频文件的语音特征的方法和装置,该分析方法包括:采用多种声学模型对音频文件中的语音内容进行语音识别,以获得多个识别结果;对比所述多个识别结果以获得对比结果;基于对比结果确定所述音频文件的语音声学特征。分析装置与上述分析方法相对应。本发明还提供了基于以上分析的音频文件的语音特征向用户推荐音频文件的方法和装置。利用本发明实施例的方法和装置,可以对音频文件进行语音分析,从而为用户提供关于音频文件中语音内容特点的丰富信息。基于这样的信息,还可以为用户推荐适合用户水平的音频文件。
-
公开(公告)号:CN103714048B
公开(公告)日:2017-07-21
申请号:CN201210375808.9
申请日:2012-09-29
Applicant: 国际商业机器公司
IPC: G06F17/27
CPC classification number: G10L15/26 , G06F17/24 , G06F17/273 , G06F17/2863 , G10L15/22 , G10L15/265 , G10L2015/025
Abstract: 本发明涉及语音处理,提供了一种用于校正文本的方法和系统。该方法包括:确定一个文本中要校正的目标文本单元;接收用户针对所述目标文本单元输入的参考语音片段;根据所述参考语音片段,确定与所述目标文本单元中的字发音相似的参考文本单元;用所述参考文本单元校正所述文本中的所述目标文本单元中的字。通过本发明,可以使得用户能够容易地通过语音方式校正文本中的错误。
-
公开(公告)号:CN104424955A
公开(公告)日:2015-03-18
申请号:CN201310385132.6
申请日:2013-08-29
Applicant: 国际商业机器公司
Abstract: 公开了一种生成音频内容的图形化表示的方法和设备。所述方法包括:获取有关音频内容中要图形化表示的对象的元数据;分析元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;基于所选择的图形化表示元素,生成所述音频内容的图形化表示。通过所述方法和设备,用户能够快速了解音频的具体内容。还公开了在音频内容库中搜索音频内容的方法和设备,通过该方法和设备,用户能够了解特定话题的谈论历史,跟踪话题的演进。
-
公开(公告)号:CN101546587A
公开(公告)日:2009-09-30
申请号:CN200810087922.5
申请日:2008-03-25
Applicant: 国际商业机器公司
Abstract: 本发明提供了在播放歌曲时自动显示视觉元素的方法和装置。根据本发明的一个方面,提供了一种在播放歌曲时自动显示视觉元素的方法,包括以下步骤:获取上述歌曲的歌词;获取上述歌曲的主题;利用视觉元素库,对上述歌词进行分析,以针对各句歌词获取与上述歌曲的主题相关的关键词,其中上述视觉元素库中的每个视觉元素都具有相关的主题和关键词;以及根据上述获取的歌曲的主题和各句歌词的关键词,在上述视觉元素库中选择合适的视觉元素进行显示。本发明的在播放歌曲时自动显示视觉元素的方法和装置可以将视觉效果按照歌曲的主题进行划分,从而可以根据播放歌曲的内容和意境,形成风格一致、主题统一的视觉效果展示给播放者。
-
公开(公告)号:CN101261623A
公开(公告)日:2008-09-10
申请号:CN200710086030.9
申请日:2007-03-07
Applicant: 国际商业机器公司
CPC classification number: G06F17/2863
Abstract: 本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。
-
公开(公告)号:CN104217149B
公开(公告)日:2017-05-24
申请号:CN201310210886.8
申请日:2013-05-31
Applicant: 国际商业机器公司
IPC: G06F21/32
Abstract: 本发明公开了一种用户认证的方法和设备。所述方法包括:向所述用户发送问题提示,所述问题提示要求用户说出语音片段以及动态问题的答案,所述语音片段具有相应的在认证之前训练出的文本相关的说话人识别模型;响应于接收所述语音回答,从述语音回答中切分出所述语音片段部分以及动态问题答案部分;验证所述语音回答中所述语音片段以及动态问题答案之间的边界平滑度。通过所述方法和设备,可以更为有效的防止用户认证时的录音欺诈。
-
公开(公告)号:CN103853749A
公开(公告)日:2014-06-11
申请号:CN201210505562.2
申请日:2012-11-30
Applicant: 国际商业机器公司
IPC: G06F17/30
CPC classification number: G06F17/30743
Abstract: 本发明提供了一种基于模式的音频检索方法和系统。所述音频检索方法包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。利用本发明的方法和系统,能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索,从而提供更准确合理的音频检索结果。
-
公开(公告)号:CN103544140A
公开(公告)日:2014-01-29
申请号:CN201210241787.1
申请日:2012-07-12
Applicant: 国际商业机器公司
IPC: G06F17/27
CPC classification number: G06F17/27 , G06F17/2765 , G10L15/18 , G10L15/187 , G10L15/22
Abstract: 本发明属于语音识别领域,公开了一种数据处理方法,所述方法包括:获取展示内容对应的文本信息,所述展示内容包括多个区域;对所述文本信息进行文本分析,得到第一关键词序列,所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词;获取与所述展示内容相关的语音信息,所述语音信息至少包括当前语音片断;使用第一模型网络对所述当前语音片断进行分析,以判断所述当前语音片断所对应的区域,其中所述第一模型网络包括所述第一关键词序列。相应的本发明还公开了一种展示方法、以及相应的用于数据处理的装置和用于展示的装置。通过本发明提供的技术方案,可以实现语音片断与展示内容不同区域的关联,进而实现展示内容按照区域的自动跳转。
-
公开(公告)号:CN104700831A
公开(公告)日:2015-06-10
申请号:CN201310652731.X
申请日:2013-12-05
Applicant: 国际商业机器公司
Abstract: 本发明公开了一种分析音频文件的语音特征的方法和装置,该分析方法包括:采用多种声学模型对音频文件中的语音内容进行语音识别,以获得多个识别结果;对比所述多个识别结果以获得对比结果;基于对比结果确定所述音频文件的语音声学特征。分析装置与上述分析方法相对应。本发明还提供了基于以上分析的音频文件的语音特征向用户推荐音频文件的方法和装置。利用本发明实施例的方法和装置,可以对音频文件进行语音分析,从而为用户提供关于音频文件中语音内容特点的丰富信息。基于这样的信息,还可以为用户推荐适合用户水平的音频文件。
-
公开(公告)号:CN103714048A
公开(公告)日:2014-04-09
申请号:CN201210375808.9
申请日:2012-09-29
Applicant: 国际商业机器公司
IPC: G06F17/27
CPC classification number: G10L15/26 , G06F17/24 , G06F17/273 , G06F17/2863 , G10L15/22 , G10L15/265 , G10L2015/025
Abstract: 本发明涉及语音处理,提供了一种用于校正文本的方法和系统。该方法包括:确定一个文本中要校正的目标文本单元;接收用户针对所述目标文本单元输入的参考语音片段;根据所述参考语音片段,确定与所述目标文本单元中的字发音相似的参考文本单元;用所述参考文本单元校正所述文本中的所述目标文本单元中的字。通过本发明,可以使得用户能够容易地通过语音方式校正文本中的错误。
-
-
-
-
-
-
-
-
-