一种说话人标记方法
    2.
    发明授权

    公开(公告)号:CN107452403B

    公开(公告)日:2020-07-07

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    一种基于多任务神经网络的多样例关键词检测方法

    公开(公告)号:CN108538285A

    公开(公告)日:2018-09-14

    申请号:CN201810180347.7

    申请日:2018-03-05

    Applicant: 清华大学

    Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。

    基于DNN模型和支持向量机模型的说话人个数估计方法

    公开(公告)号:CN106898354A

    公开(公告)日:2017-06-27

    申请号:CN201710123753.5

    申请日:2017-03-03

    Applicant: 清华大学

    Abstract: 本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法,属于语音信号处理和深度学习领域。模型训练阶段,首先获取N个说话人的训练语音数据,得到深度神经网络DNN模型;然后获取M个说话人的训练语音数据,每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率,组成M个说话人的N维特征,建立M个支持向量机SVM模型;说话人个数估计阶段,将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分,得分最高的SVM模型即为该条待测语音数据所对应的类别,类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题,提高语音数据中说话人个数估计的准确率。

    一种具有自定义功能的音频检测分类方法

    公开(公告)号:CN103824557B

    公开(公告)日:2016-06-15

    申请号:CN201410055255.8

    申请日:2014-02-19

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    CPC classification number: G10L25/78 G10L25/24 G10L25/51

    Abstract: 一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。

    一种分布式麦克风的说话人聚类方法

    公开(公告)号:CN102074236B

    公开(公告)日:2012-06-06

    申请号:CN201010568386.8

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式麦克风的说话人聚类方法,先对分布式麦克风采集的信号进行预处理,再对声源信号片段采用时延估计法计算,得到对应的时延估计向量,然后排除错误数据并进行说话人分割,最后根据说话人分割的结果进行说话人聚类,本发明以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。

    语音帧错误检测及修复的方法及装置

    公开(公告)号:CN102034476A

    公开(公告)日:2011-04-27

    申请号:CN200910174587.7

    申请日:2009-09-30

    Abstract: 本发明实施例提供一种语音帧错误检测及修复的方法及装置,涉及通信领域,能够利用语音信号的特点及编码参数的先验统计特性进行错误帧的检测和修复。检测方法为:在静音模式下,收到一个参数指示为正确的语音帧,则根据预先设置的检测规则对所述语音帧参数进行检测,当满足所述检测规则规定的条件时,确定所述语音帧是错误语音帧。以及,在语音模式下,收到一个参数指示为错误的语音帧,则根据所述语音帧的参数平均值对所述语音帧的静音插入描述SID进行检测,当满足检测条件时,确定所述语音帧是SID帧。本发明实施例可用于GSM全速率语音编解码。

    基于语音识别的信息校核方法

    公开(公告)号:CN1123863C

    公开(公告)日:2003-10-08

    申请号:CN00130298.1

    申请日:2000-11-10

    Applicant: 清华大学

    Abstract: 本发明属于语音技术领域,涉及基于语音识别的信息校核方法。包括:非特定人语音识别模型的预先训练、语音信号的端点检测、语音识别参数提取、基于多子树三元词对文法的帧同步束搜索Viterbi语音识别方法、语音识别置信测度与拒识模型、非特定人语音识别模型的说话人自适应学习、语音提示。本发明的基于语音识别的信息校核方法具有识别率高、稳健性好等特点。构成的语音识别系统可以用于信息查询、语音命令识别、学习机,以及生产环节的控制系统中。

    身份验证的方法、装置、计算机设备及存储介质

    公开(公告)号:CN110379433A

    公开(公告)日:2019-10-25

    申请号:CN201910711306.0

    申请日:2019-08-02

    Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。

    语种识别方法及计算机设备

    公开(公告)号:CN108510977A

    公开(公告)日:2018-09-07

    申请号:CN201810235261.X

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。

Patent Agency Ranking