-
公开(公告)号:CN102982801B
公开(公告)日:2014-12-10
申请号:CN201210449436.X
申请日:2012-11-12
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/20 , G10L21/0208
Abstract: 本发明公开了一种用于鲁棒语音识别的语音特征提取方法,该方法包括:获取功率谱;采用滤波器组对功率谱进行处理;采用帧平均的方式求取中等时长的功率谱;对功率谱进行不对称滤波处理,同时对功率谱进行掩蔽处理,得到纯净语音功率谱;对纯净语音和带噪语音功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘,得到纯净语音的短时功率谱;对短时功率谱进行能量归一化处理,以消除乘性噪声;功率谱进行等响度加重;功率谱进行指数操作;对功率谱进行傅立叶逆变换;求取信号的倒谱系数;对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征,速度快,能够实现在线处理;利用本发明提取的特征训练出的声学模型,具用很好的抗噪效果;本发明具有非常重大的使用意义。
-
公开(公告)号:CN102968989B
公开(公告)日:2014-08-13
申请号:CN201210528093.6
申请日:2012-12-10
Applicant: 中国科学院自动化研究所
IPC: G10L15/16
Abstract: 本发明公开了一种用于语音识别的Ngram模型改进方法,其包括:将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;将所述发音网络NET2反向转换成改进后的Ngram模型,使用该改进后的Ngram模型进行语音识别。
-
公开(公告)号:CN102982801A
公开(公告)日:2013-03-20
申请号:CN201210449436.X
申请日:2012-11-12
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/20 , G10L21/0208
Abstract: 本发明公开了一种用于鲁棒语音识别的语音特征提取方法,该方法包括:获取功率谱;采用滤波器组对功率谱进行处理;采用帧平均的方式求取中等时长的功率谱;对功率谱进行不对称滤波处理,同时对功率谱进行掩蔽处理,得到纯净语音功率谱;对纯净语音和带噪语音功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘,得到纯净语音的短时功率谱;对短时功率谱进行能量归一化处理,以消除乘性噪声;功率谱进行等响度加重;功率谱进行指数操作;对功率谱进行傅立叶逆变换;求取信号的倒谱系数;对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征,速度快,能够实现在线处理;利用本发明提取的特征训练出的声学模型,具用很好的抗噪效果;本发明具有非常重大的使用意义。
-
公开(公告)号:CN102324229A
公开(公告)日:2012-01-18
申请号:CN201110265473.0
申请日:2011-09-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音输入设备使用异常的检测方法及系统。本发明采用对远讲语音信号表征更全面、更趋近于人感知的特征提取方式,从而可以粗略的判断背景语音,正常语音和远讲语音。在音频信号分类的基础上,采用现代信号处理技术和统计机器学习理论相结合的方法,克服了传统方法对前端语音输入的诸多限制问题,使得信号级质量评分更趋近于人的评分。本发明解决了在大规模口语测试中,由于人为设备使用错误而导致的前端输入语音质量差异问题。
-
公开(公告)号:CN102419973B
公开(公告)日:2013-06-19
申请号:CN201110370038.4
申请日:2011-11-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种声调评测方法。该方法包括:从待评测语音中提取声调识别特征,声调识别特征包含基频曲线特征;将声调识别特征送入训练后的声调识别模型,获得每一个声调的识别得分;提取得分最高的声调及其识别得分作为第一评测特征,标准声调和标准声调识别得分作为第二评测特征;将第一声调评测特征和第二声调评测特征合并成4维的声调评测特征,送入训练后的声调评测模型,获得待评测语音的声调评测得分。本发明声调评测方法可以获得更加良好的声调评测性能。
-
公开(公告)号:CN102426834B
公开(公告)日:2013-05-08
申请号:CN201110252779.2
申请日:2011-08-30
Applicant: 中国科学院自动化研究所
IPC: G10L25/00
Abstract: 本发明公开了一种测试英文口语韵律水平的方法。该方法包括:步骤A,对原始英语语音信号进行预处理;步骤B,在进行预处理后的原始英语语音信号中提取用于韵律测试的多知识源特征参数,该多知识源特征参数包括韵律表现特征、韵律产生特征和韵律影响特征;步骤C,由多数多知识源特征参数获取所述原始英语语音的韵律水平测试分数。本发明测试英文口语韵律水平的方法,以使用多知识源信息进行细化并融合的策略取得更佳的测试效果,提高测试的客观性和准确性。
-
公开(公告)号:CN101739868B
公开(公告)日:2012-03-28
申请号:CN200810226674.8
申请日:2008-11-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种用于口语测试的文本朗读水平自动评估诊断方法,该方法提取测试者按照给定文本进行朗读语音的各项特征;训练朗读特征与人工评分的拟分模型;测试时依据其朗读特征和拟分模型拟合出机器评分,并给出相关的诊断信息。它要求测试者朗读预先设定的文本,然后利用收集到的语音对测试者的口语能力做出自动评估。其特点是利用计算机提取测试者朗读语音的各项特征,在拟分模型上拟和得出机器评分,从而达到评估测试者口语语言能力的目的。
-
公开(公告)号:CN102354495A
公开(公告)日:2012-02-15
申请号:CN201110254211.4
申请日:2011-08-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种半开放式口语试题的测试方法及系统,从关键内容检测和文本无关评估技术入手,跳过了对语音识别的依赖,实现了对半开放口语试题的全自动评分。本发明提出把口语语音的评估分成内容、发音、流利、韵律四个部分,为口语评估工作奠定了基础。
-
公开(公告)号:CN101739868A
公开(公告)日:2010-06-16
申请号:CN200810226674.8
申请日:2008-11-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种用于口语测试的文本朗读水平自动评估诊断方法,该方法提取测试者按照给定文本进行朗读语音的各项特征;训练朗读特征与人工评分的拟分模型;测试时依据其朗读特征和拟分模型拟合出机器评分,并给出相关的诊断信息。它要求测试者朗读预先设定的文本,然后利用收集到的语音对测试者的口语能力做出自动评估。其特点是利用计算机提取测试者朗读语音的各项特征,在拟分模型上拟和得出机器评分,从而达到评估测试者口语语言能力的目的。
-
公开(公告)号:CN116403594A
公开(公告)日:2023-07-07
申请号:CN202310671651.2
申请日:2023-06-08
Applicant: 澳克多普有限公司 , 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/84 , G10L25/27
Abstract: 本发明涉及一种基于噪声更新因子语音增强的方法和装置,该方法包括:获取带噪语音;对带噪语音进行傅里叶变换分解,得到带噪傅里叶系数;对带噪傅里叶系数进行特征提取,得到带噪Fbank特征;将带噪Fbank特征输入至预先训练的语音降噪模型,通过维纳滤波对带噪信号进行滤波,得到降噪后的目标语音信号的傅里叶系数;根据降噪后的目标语音傅里叶系数生成降噪后语音波形信号。本发明具有显著的性能提升,既能处理平稳噪声,又能应对非平稳噪声,生成的纯净语音质量较高,同时鲁棒性高,在各自声学场景中性能稳定,提升用户体验。
-
-
-
-
-
-
-
-
-