一种具有自定义功能的音频检测分类方法

    公开(公告)号:CN103824557A

    公开(公告)日:2014-05-28

    申请号:CN201410055255.8

    申请日:2014-02-19

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    CPC classification number: G10L25/78 G10L25/24 G10L25/51

    Abstract: 一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。

    基于基状态矢量加权的短语音说话人识别方法

    公开(公告)号:CN103219008A

    公开(公告)日:2013-07-24

    申请号:CN201310182450.2

    申请日:2013-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。

    一种分布式非同步声传感器的声源空间定位方法

    公开(公告)号:CN102103200B

    公开(公告)日:2012-12-05

    申请号:CN201010568360.3

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。

    基于语种对的鉴别式语种识别模型建立方法

    公开(公告)号:CN101702314B

    公开(公告)日:2011-11-09

    申请号:CN200910235393.3

    申请日:2009-10-13

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

    一种分布式非同步声传感器的声源空间定位方法

    公开(公告)号:CN102103200A

    公开(公告)日:2011-06-22

    申请号:CN201010568360.3

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。

    一种分布式麦克风的说话人聚类方法

    公开(公告)号:CN102074236A

    公开(公告)日:2011-05-25

    申请号:CN201010568386.8

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式麦克风的说话人聚类方法,先对分布式麦克风采集的信号进行预处理,再对声源信号片段采用时延估计法计算,得到对应的时延估计向量,然后排除错误数据并进行说话人分割,最后根据说话人分割的结果进行说话人聚类,本发明以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。

    嵌入式平台大词汇量语音命令词的识别方法

    公开(公告)号:CN101751924A

    公开(公告)日:2010-06-23

    申请号:CN200910242404.0

    申请日:2009-12-10

    Applicant: 清华大学

    Inventor: 刘加 钱彦旻

    Abstract: 本发明公开了语音识别技术领域中的一种嵌入式平台大词汇量语音命令词的识别方法。包括下列步骤:语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法;其中,语音声学模型,采用基于声母右相关的词内双音子模型;构建树形识别网络具体是,构建基于相同父音节的树形识别网络,合并有相同父音节的结点;快速识别搜索算法,根据所述基于相同父音节的树形识别网络,采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。本发明对传统的嵌入式语音识别方法进行了改进,实现了内存和CPU资源的高效利用,提高了大词汇量语音命令词识别的速度。

    基于多坐标序列内核的说话人识别方法和系统

    公开(公告)号:CN101640043A

    公开(公告)日:2010-02-03

    申请号:CN200910092138.8

    申请日:2009-09-01

    Applicant: 清华大学

    Inventor: 何亮 邓妍 刘加

    Abstract: 本发明提出一种基于多坐标序列内核的说话人识别方法,包括训练阶段和识别阶段。训练阶段对训练语音进行预处理;从预处理后的训练语音中提取特征矢量序列;在特征矢量空间选择多坐标系原点,在各坐标系将所述特征矢量序列进行映射;根据坐标系选择算法,将各坐标系的矢量序列进行拼接,拼接为超矢量;确定超矢量空间,支持向量机SVM的核函数,并采用支持向量机算法进行训练,得到训练好的说话人模型。识别阶段利用已训练好的模型测试超矢量,输出判决分数。本发明通过对语音信号特征序列有效建模,既利用了高维统计量蕴含的信息,又降低了在集成电路上的运算复杂度,提高了说话人识别的准确率和识别速度。

    用于语种识别的约束异方差线性鉴别分析方法

    公开(公告)号:CN101546555A

    公开(公告)日:2009-09-30

    申请号:CN200910081899.3

    申请日:2009-04-14

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的约束异方差线性鉴别分析方法涉及一种高维特征矢量的降维和去相关处理方法,其特征在于,所述方法首先由语音信号提取MFCC特征,选取连续M帧MFCC特征并列放置得到倒谱矩阵,然后将其按行展开,形成超矢量,再分块计算超矢量的均值和协方差,并用迭代法分块计算变换矩阵,接着用变换矩阵对超矢量分块进行变换,最后将各块进行降维和拼接处理,可得到新的特征矢量。该方法计算量小,得到的特征矢量去除了各维之间的相关性,鉴别性高且维数低。可以用于语种识别。

    用于语种识别的时频二维倒谱特征提取方法

    公开(公告)号:CN101256768A

    公开(公告)日:2008-09-03

    申请号:CN200810103328.0

    申请日:2008-04-03

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。

Patent Agency Ranking