-
公开(公告)号:CN108510977B
公开(公告)日:2020-05-22
申请号:CN201810235261.X
申请日:2018-03-21
Applicant: 清华大学
IPC: G10L15/00 , G10L15/02 , G10L15/197
Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。
-
公开(公告)号:CN110322871A
公开(公告)日:2019-10-11
申请号:CN201910462959.X
申请日:2019-05-30
Applicant: 清华大学
Inventor: 张卫强
Abstract: 本发明属于语音关键词检索技术领域,尤其涉及一种基于声学表征矢量的样例关键词检索方法,包括:步骤1:采用大量语音数据来训练得到带有瓶颈层的神经网络自编码器;步骤2:将神经网络自编码器的瓶颈层作为输出层来得到声学表征矢量提取器;步骤3:采用声学表征矢量提取器对单样例关键词和多样例关键词来提取关键词模型矢量;步骤4:采用声学表征矢量提取器对测试语言片段来提取测试语言声学表征矢量;步骤5:计算测试语言声学表征矢量与每个关键词模型矢量的距离,如果某距离小于预设门限,则该关键词即为检索的关键词。本发明适用于低资源条件下任意语种的单样例或多样例关键词检索的建模,检索性能高,并且单样例和多样例通用。
-
公开(公告)号:CN104575519B
公开(公告)日:2018-12-25
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN103219008B
公开(公告)日:2016-04-20
申请号:CN201310182450.2
申请日:2013-05-16
Applicant: 清华大学
Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。
-
公开(公告)号:CN103714818A
公开(公告)日:2014-04-09
申请号:CN201310681894.0
申请日:2013-12-12
Applicant: 清华大学
IPC: G10L17/20
Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
-
公开(公告)号:CN103578466A
公开(公告)日:2014-02-12
申请号:CN201310557124.5
申请日:2013-11-11
Applicant: 清华大学
IPC: G10L15/04
Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。
-
公开(公告)号:CN101833951A
公开(公告)日:2010-09-15
申请号:CN201010118149.1
申请日:2010-03-04
Applicant: 清华大学
Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。
-
公开(公告)号:CN114067834A
公开(公告)日:2022-02-18
申请号:CN202010752821.6
申请日:2020-07-30
Applicant: 中国移动通信集团有限公司 , 清华大学
Abstract: 本发明实施例提供了一种不良前导音识别方法、装置、存储介质和计算机设备。通过根据获取的多个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音的准确性。
-
公开(公告)号:CN110738987B
公开(公告)日:2022-02-15
申请号:CN201910992852.6
申请日:2019-10-18
Applicant: 清华大学
Inventor: 张卫强
Abstract: 本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法,包括:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器;采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器;采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量;通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量;对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离,若小于预设门限即认为命中查询词。
-
公开(公告)号:CN113052270A
公开(公告)日:2021-06-29
申请号:CN202110503779.9
申请日:2021-05-10
Applicant: 清华大学 , 国家计算机网络与信息安全管理中心
Abstract: 本申请涉及一种分类精度评价方法、装置、计算机设备和存储介质。所述方法包括:获取有害语音样本集;将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类,得到预测类别标签;在预设的分类层级中,确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类;根据目标分类计算待评价的有害语音分类模型的分类精确程度。本方案中,对有害语音样本进行了多层次的分类(即分类层级),然后在分类层级中确定预测类别标签和样本类别标签共同所属的目标分类,目标分类可以反映预测类别标签和样本类别标签的匹配度,进而根据目标分类确定分类模型的分类精确程度,能够有效的提高分类模型评价的准确度。
-
-
-
-
-
-
-
-
-