一种会议音频中的精彩说话人发现方法

    公开(公告)号:CN103137137A

    公开(公告)日:2013-06-05

    申请号:CN201310061167.4

    申请日:2013-02-27

    Abstract: 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。

    一种会议音频中的精彩说话人发现方法

    公开(公告)号:CN103137137B

    公开(公告)日:2015-07-01

    申请号:CN201310061167.4

    申请日:2013-02-27

    Abstract: 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。

    基于长时特征和短时特征的重叠语音与单人语音区分方法

    公开(公告)号:CN102968986B

    公开(公告)日:2015-01-28

    申请号:CN201210442113.8

    申请日:2012-11-07

    Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。

    一种具有语音提取功能的会议记录器及语音提取方法

    公开(公告)号:CN103530432A

    公开(公告)日:2014-01-22

    申请号:CN201310439113.7

    申请日:2013-09-24

    Abstract: 本发明公开了一种具有说话人语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块,其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。本发明的会议记录器及语音提取方法,可以从会议语音中自动提取出各个说话人的语音,功能全面且使用方便。

    基于长时特征和短时特征的重叠语音与单人语音区分方法

    公开(公告)号:CN102968986A

    公开(公告)日:2013-03-13

    申请号:CN201210442113.8

    申请日:2012-11-07

    Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。

Patent Agency Ranking