一种使用互为先验约束模型的命令词识别方法与系统

    公开(公告)号:CN111754981A

    公开(公告)日:2020-10-09

    申请号:CN202010593154.1

    申请日:2020-06-26

    Applicant: 清华大学

    Abstract: 一种使用互为先验约束模型的命令词识别方法,基于端到端语音命令词识别结构,所述端到端语音命令词识别结构包括用于从音频中提取音素特征的音素模块、从音素特征中提取单词特征的单词模块以及从单词特征中提取语义特征的语义模块,其特征在于,所述语义模块采用先后顺序识别命令词,将独立的识别过程变为有先后顺序的互为先验约束的识别过程,即先识别出一个内容成分,再通过该内容成分影响其它内容成分的识别结果,从而达到提高准确率的目的,本发明还提供了相应的系统。与现有技术相比,本发明利用了变量之间的相关性,大大提高了识别的准确率。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381B

    公开(公告)日:2016-09-21

    申请号:CN201410209057.2

    申请日:2014-05-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加 孙甲松

    Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    一种基于深度长短期记忆循环神经网络的连续语音识别方法

    公开(公告)号:CN104538028A

    公开(公告)日:2015-04-22

    申请号:CN201410821646.6

    申请日:2014-12-25

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    CPC classification number: G10L15/16

    Abstract: 一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    一种具有自定义功能的音频检测分类方法

    公开(公告)号:CN103824557A

    公开(公告)日:2014-05-28

    申请号:CN201410055255.8

    申请日:2014-02-19

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    CPC classification number: G10L25/78 G10L25/24 G10L25/51

    Abstract: 一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。

    一种基于多距离声传感器的音频索引方法

    公开(公告)号:CN102509548B

    公开(公告)日:2013-06-12

    申请号:CN201110303580.8

    申请日:2011-10-09

    Applicant: 清华大学

    Abstract: 本发明为一种基于多距离声传感器的音频索引方法,使用多距离声传感器作为音频记录装置用于记录多媒体会议中的音频信息,并基于多距离声传感器提取一种空间多时延特征作为区分不同说话人的特征,用一种新的流型算法对多时延特征进行降维处理并按说话人身份进行分类,这种方法可降低系统的复杂度和计算代价,最后各个说话人的音频片段及其身份作为音频索引信息被系统输出,由该方法得到的最优判别向量集理论上可以达到最优鉴别,可应用于复杂声学环境下的多人多方对话场景。

    一种分布式非同步声传感器的声源空间定位方法

    公开(公告)号:CN102103200B

    公开(公告)日:2012-12-05

    申请号:CN201010568360.3

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。

    一种基于多距离声传感器的音频索引方法

    公开(公告)号:CN102509548A

    公开(公告)日:2012-06-20

    申请号:CN201110303580.8

    申请日:2011-10-09

    Applicant: 清华大学

    Abstract: 本发明为一种基于多距离声传感器的音频索引方法,使用多距离声传感器作为音频记录装置用于记录多媒体会议中的音频信息,并基于多距离声传感器提取一种空间多时延特征作为区分不同说话人的特征,用一种新的流型算法对多时延特征进行降维处理并按说话人身份进行分类,这种方法可降低系统的复杂度和计算代价,最后各个说话人的音频片段及其身份作为音频索引信息被系统输出,由该方法得到的最优判别向量集理论上可以达到最优鉴别,可应用于复杂声学环境下的多人多方对话场景。

    一种分布式非同步声传感器的声源空间定位方法

    公开(公告)号:CN102103200A

    公开(公告)日:2011-06-22

    申请号:CN201010568360.3

    申请日:2010-11-29

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。

Patent Agency Ranking