-
公开(公告)号:CN111754981A
公开(公告)日:2020-10-09
申请号:CN202010593154.1
申请日:2020-06-26
Applicant: 清华大学
Abstract: 一种使用互为先验约束模型的命令词识别方法,基于端到端语音命令词识别结构,所述端到端语音命令词识别结构包括用于从音频中提取音素特征的音素模块、从音素特征中提取单词特征的单词模块以及从单词特征中提取语义特征的语义模块,其特征在于,所述语义模块采用先后顺序识别命令词,将独立的识别过程变为有先后顺序的互为先验约束的识别过程,即先识别出一个内容成分,再通过该内容成分影响其它内容成分的识别结果,从而达到提高准确率的目的,本发明还提供了相应的系统。与现有技术相比,本发明利用了变量之间的相关性,大大提高了识别的准确率。
-
公开(公告)号:CN108134394A
公开(公告)日:2018-06-08
申请号:CN201711063398.3
申请日:2017-11-02
Applicant: 国网江苏省电力公司电力科学研究院 , 国家电网公司 , 北京清大高科系统控制有限公司 , 清华大学 , 江苏省电力试验研究院有限公司
Abstract: 本发明公开了一种考虑分布式电源影响的优化减载方法,配网各节点上传当前时刻的可中断负荷量以及负荷优先级至根节点的集中控制器,集中控制器根据上传信息和潮流约束建立考虑外网等值的优化减载模型;集中控制器通过二阶锥松弛的方法将非线性潮流约束转化为凸的二阶锥形式,从而快速计算出考虑分布式电源出力影响的优化减载量,并将该信息下达至各节点控制单元;各节点执行减载动作后,测量单元监测节点电压是否恢复到额定范围,判断是否完成本轮减载过程。本方法能够在含大量分布式电源的配电网中实现快速、精准的减载控制,最大限度恢复配网电压,同时保证了分布式电源电压不越限,避免了不恰当的减载引起分布式电源过电压跳闸。
-
公开(公告)号:CN103985381B
公开(公告)日:2016-09-21
申请号:CN201410209057.2
申请日:2014-05-16
Applicant: 清华大学
IPC: G10L15/08
Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。
-
公开(公告)号:CN105245314A
公开(公告)日:2016-01-13
申请号:CN201510685199.0
申请日:2015-10-20
Applicant: 北京国电通网络技术有限公司 , 国家电网公司 , 国网浙江省电力公司 , 北京中电飞华通信股份有限公司 , 清华大学 , 北京万里开源软件有限公司
IPC: H04L1/00
CPC classification number: H04L1/0009 , H04L1/0057
Abstract: 本发明公开了一种分布式存储系统中的混合冗余容错编解码方法包括:判断当前输出网络状况的好坏;若当前输出网络状况良好,采用Reed-Solomen纠删码编码方式对数据进行编码;若当前输出网络状况不好,则采用非线性自修复码编码方式;对采用不同编码方式编码得到的数据,采用相对应的解码方式对数据进行解码。本发明还公开了一种分布式存储系统中的混合冗余容错编解码系统,包括:判断网络状况模块,Reed-Solomen纠删码编解码模块,非线性自修复码编解码模块。本发明提供的分布式存储系统中的混合冗余容错编解码方法和系统,根据不同网络状况采取不同的容错方式,降低对存储和网络带宽的要求,通过解决少量编码信息重构问题,较大程度降低丢包导致的数据重组困难。
-
公开(公告)号:CN104538028A
公开(公告)日:2015-04-22
申请号:CN201410821646.6
申请日:2014-12-25
Applicant: 清华大学
IPC: G10L15/16
CPC classification number: G10L15/16
Abstract: 一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。
-
公开(公告)号:CN103824557A
公开(公告)日:2014-05-28
申请号:CN201410055255.8
申请日:2014-02-19
Applicant: 清华大学
Abstract: 一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。
-
公开(公告)号:CN102509548B
公开(公告)日:2013-06-12
申请号:CN201110303580.8
申请日:2011-10-09
Applicant: 清华大学
IPC: G10L15/08
Abstract: 本发明为一种基于多距离声传感器的音频索引方法,使用多距离声传感器作为音频记录装置用于记录多媒体会议中的音频信息,并基于多距离声传感器提取一种空间多时延特征作为区分不同说话人的特征,用一种新的流型算法对多时延特征进行降维处理并按说话人身份进行分类,这种方法可降低系统的复杂度和计算代价,最后各个说话人的音频片段及其身份作为音频索引信息被系统输出,由该方法得到的最优判别向量集理论上可以达到最优鉴别,可应用于复杂声学环境下的多人多方对话场景。
-
公开(公告)号:CN102103200B
公开(公告)日:2012-12-05
申请号:CN201010568360.3
申请日:2010-11-29
Applicant: 清华大学
IPC: G01S5/30
Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。
-
公开(公告)号:CN102509548A
公开(公告)日:2012-06-20
申请号:CN201110303580.8
申请日:2011-10-09
Applicant: 清华大学
IPC: G10L15/08
Abstract: 本发明为一种基于多距离声传感器的音频索引方法,使用多距离声传感器作为音频记录装置用于记录多媒体会议中的音频信息,并基于多距离声传感器提取一种空间多时延特征作为区分不同说话人的特征,用一种新的流型算法对多时延特征进行降维处理并按说话人身份进行分类,这种方法可降低系统的复杂度和计算代价,最后各个说话人的音频片段及其身份作为音频索引信息被系统输出,由该方法得到的最优判别向量集理论上可以达到最优鉴别,可应用于复杂声学环境下的多人多方对话场景。
-
公开(公告)号:CN102103200A
公开(公告)日:2011-06-22
申请号:CN201010568360.3
申请日:2010-11-29
Applicant: 清华大学
IPC: G01S5/30
Abstract: 一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。
-
-
-
-
-
-
-
-
-