-
公开(公告)号:CN102024455B
公开(公告)日:2014-09-17
申请号:CN200910170552.6
申请日:2009-09-10
Applicant: 索尼株式会社
Abstract: 本发明公开了一种说话人识别系统及其方法。根据本发明的说话人识别系统包括:特征提取单元,配置为提取说话人的语音数据的特征矢量;背景模型生成单元,配置为对背景说话人的语音数据的特征矢量进行内部聚类并根据内部聚类的结果生成针对一般说话人的通用背景模型;注册说话人模型生成单元,配置为利用每一个注册说话人的语音数据的特征矢量对通用背景模型自适应,生成每一个注册说话人的注册说话人模型;度量值计算单元,配置为计算测试说话人的特征矢量在背景模型生成单元生成的通用背景模型和注册说话人模型生成单元生成的每一个注册说话人的注册说话人模型上的度量值;以及识别单元,配置为根据度量值计算单元所计算的度量值识别测试说话人。
-
公开(公告)号:CN101872616B
公开(公告)日:2013-02-06
申请号:CN200910135606.5
申请日:2009-04-22
Applicant: 索尼株式会社
IPC: G10L25/18
Abstract: 本发明涉及一种端点检测方法以及使用该方法的系统,其使用基频提取结合子带能量的方法对语音进行检测,由于元音有基频,而基频拥有很强的语音特征,受噪声影响较小,使得元音的提取拥有很高的鲁棒性。使用子带能量在元音前后约束的范围内寻找辅音,并且子带能量的门限能够根据噪声分布变化而即时更新,使得辅音的检测受噪声影响也大大降低。因此,系统即使对于不断变化的复杂噪声也有很好的检测结果。
-
-
公开(公告)号:CN101872616A
公开(公告)日:2010-10-27
申请号:CN200910135606.5
申请日:2009-04-22
Applicant: 索尼株式会社
Abstract: 本发明涉及一种端点检测方法以及使用该方法的系统,其使用基频提取结合子带能量的方法对语音进行检测,由于元音有基频,而基频拥有很强的语音特征,受噪声影响较小,使得元音的提取拥有很高的鲁棒性。使用子带能量在元音前后约束的范围内寻找辅音,并且子带能量的门限能够根据噪声分布变化而即时更新,使得辅音的检测受噪声影响也大大降低。因此,系统即使对于不断变化的复杂噪声也有很好的检测结果。
-
公开(公告)号:CN102073635B
公开(公告)日:2015-08-26
申请号:CN200910208950.2
申请日:2009-10-30
Applicant: 索尼株式会社 , 中国科学院声学研究所
IPC: G06F17/30
CPC classification number: G06F17/30743 , G06F17/30749
Abstract: 本发明涉及多媒体内容的检索,提供一种节目端点时间检测装置,通过对节目的音频信号进行处理,从而检测节目的端点时间,其包括:音频分类单元,将音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过关键词检索单元检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词;节目端点时间确定单元,基于关键词检索单元的检索结果和内容分析单元的确定结果进行统计分析,确定节目的端点时间。另外,本发明还提供一种节目信息检索系统。通过本发明,可以迅速得到有关用户关注的节目的节目信息。
-
公开(公告)号:CN102073636A
公开(公告)日:2011-05-25
申请号:CN200910208955.5
申请日:2009-10-30
Applicant: 索尼株式会社 , 中国科学院声学研究所
IPC: G06F17/30
Abstract: 提供检索节目高潮的高潮检索系统和方法以及相应计算机产品。该高潮检索系统包括:滑动窗特征提取器,用于对待处理音频流加窗并提取窗内音频流片段的特征信息;模型分类器,用于在混合高斯模型上对每一个音频流片段进行打分以判断高潮片段;频谱能量分析器,用于对检索到的高潮片段和背景环境噪声进行频谱子带能量分析,并计算高潮片段的平均能量值作为频谱子带能量阈值;以及边界寻找器,对检索出的高潮片段的边界位置分别向前、向后计算子带平均能量,并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界,以检索出整个高潮片段。
-
公开(公告)号:CN102073635A
公开(公告)日:2011-05-25
申请号:CN200910208950.2
申请日:2009-10-30
Applicant: 索尼株式会社 , 中国科学院声学研究所
IPC: G06F17/30
CPC classification number: G06F17/30743 , G06F17/30749
Abstract: 本发明涉及多媒体内容的检索,提供一种节目端点时间检测装置,通过对节目的音频信号进行处理,从而检测节目的端点时间,其包括:音频分类单元,将音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过关键词检索单元检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词;节目端点时间确定单元,基于关键词检索单元的检索结果和内容分析单元的确定结果进行统计分析,确定节目的端点时间。另外,本发明还提供一种节目信息检索系统。通过本发明,可以迅速得到有关用户关注的节目的节目信息。
-
公开(公告)号:CN102024455A
公开(公告)日:2011-04-20
申请号:CN200910170552.6
申请日:2009-09-10
Applicant: 索尼株式会社
Abstract: 本发明公开了一种说话人识别系统及其方法。根据本发明的说话人识别系统包括:特征提取单元,配置为提取说话人的语音数据的特征矢量;背景模型生成单元,配置为对背景说话人的语音数据的特征矢量进行内部聚类并根据内部聚类的结果生成针对一般说话人的通用背景模型;注册说话人模型生成单元,配置为利用每一个注册说话人的语音数据的特征矢量对通用背景模型自适应,生成每一个注册说话人的注册说话人模型;度量值计算单元,配置为计算测试说话人的特征矢量在背景模型生成单元生成的通用背景模型和注册说话人模型生成单元生成的每一个注册说话人的注册说话人模型上的度量值;以及识别单元,配置为根据度量值计算单元所计算的度量值识别测试说话人。
-
-
-
-
-
-
-