-
-
-
公开(公告)号:CN102968986B
公开(公告)日:2015-01-28
申请号:CN201210442113.8
申请日:2012-11-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
-
公开(公告)号:CN103530432A
公开(公告)日:2014-01-22
申请号:CN201310439113.7
申请日:2013-09-24
Applicant: 华南理工大学
Abstract: 本发明公开了一种具有说话人语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块,其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。本发明的会议记录器及语音提取方法,可以从会议语音中自动提取出各个说话人的语音,功能全面且使用方便。
-
公开(公告)号:CN103400580A
公开(公告)日:2013-11-20
申请号:CN201310311072.3
申请日:2013-07-23
Applicant: 华南理工大学
IPC: G10L17/00
Abstract: 本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。
-
公开(公告)号:CN102968986A
公开(公告)日:2013-03-13
申请号:CN201210442113.8
申请日:2012-11-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
-
-
-
-
-