一种基于深度长短期记忆循环神经网络的连续语音识别方法

    公开(公告)号:CN104538028B

    公开(公告)日:2017-10-17

    申请号:CN201410821646.6

    申请日:2014-12-25

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    CPC classification number: G10L15/16

    Abstract: 一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

    公开(公告)号:CN104700828A

    公开(公告)日:2015-06-10

    申请号:CN201510122982.6

    申请日:2015-03-19

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    CPC classification number: G10L15/02 G10L15/06

    Abstract: 一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381A

    公开(公告)日:2014-08-13

    申请号:CN201410209057.2

    申请日:2014-05-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加 孙甲松

    Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    一种基于局部学习的说话人识别方法

    公开(公告)号:CN103035239A

    公开(公告)日:2013-04-10

    申请号:CN201210548563.5

    申请日:2012-12-17

    Applicant: 清华大学

    Inventor: 杨毅 陈国顺 马欣

    Abstract: 一种基于局部学习的说话人识别方法,包括训练阶段与识别阶段,训练阶段包括:将训练数据通过提取特征和聚类方法分为特征空间上的多类训练集;针对每类训练集进行局部学习,通过概率线性判别分析方法获得多个模型;识别阶段包括:对待识别数据提取特征并进行分类判决得到特征空间上的多类待识别集;针对每类待识别集进行局部学习,根据训练数据得到的多个模型计算每类待识别集的后验概率作为结果;本发明应用于说话人识别中的说话人鉴别和说话人确认场景,可以降低由于异构性数据引起的错误识别率,最后每类待识别集的后验概率信息作为结果被系统输出。

    一种拼装而成的均匀面光源

    公开(公告)号:CN101430072B

    公开(公告)日:2012-03-28

    申请号:CN200810180054.5

    申请日:2006-01-19

    Applicant: 清华大学

    Abstract: 一种拼装而成的均匀面光源属于发光二极管封装和应用技术领域。其特征在于,它是由多块基于发光二极管的面光源模块水平拼装而成的面光源,所述每一块面光源模块含有,发光二极管光源,和使所述发光二极管光源发出的光经过折射和/或反射后,在出射平面上产生近似均匀的照度,并且出射的方向与光的中轴平行的匀光—准直光学机构。准直机构是一块准直面板,其中心为一凸透镜,四周为一组截面为全等三角形的棱镜,该棱镜在中轴线正交的平面上的投影为一组同心圆。本发明可以在兼顾高效率的前提下获得良好的出光均匀性,在个人计算机、车辆导航系统、手持电话等设备中安装的液晶显示装置的背光源,以及普通的室内照明用灯具等应用方面具有广阔的前景。

    基于发光二极管的面光源模块

    公开(公告)号:CN100508222C

    公开(公告)日:2009-07-01

    申请号:CN200510011442.7

    申请日:2005-03-18

    Applicant: 清华大学

    Abstract: 基于发光二极管的面光源模块属于发光二极管封装和应用技术领域,其特征在于,它包含发光二极管和一块把从发光二极管发出的光扩散至一个出射主面出射的导光板,在该出射主面上水平分布有若干个凸出于出射主面且以近似圆弧状延伸的光出射引导结构,所述的圆弧是任意一种直线或曲线,它是以发光二极管光源在出射主面上的投影点为近似中心的。液晶显示器中面对液晶层的主面,或照明装置中用于照明的平面都是所述的出射主面。本发明的二次封装效率达到80%,比现在产品的最高水平还高30%以上;面光源最亮点光强与最弱点光强之比为1.2,实现了均匀出光。它用于制造出光均匀且出光面积大、显色指数高的面光源装置。

    一种用于二氧化碳回收浓缩的环流型膜分离装置

    公开(公告)号:CN100506350C

    公开(公告)日:2009-07-01

    申请号:CN200610144283.2

    申请日:2006-12-01

    Applicant: 清华大学

    CPC classification number: Y02C10/10 Y02P20/152

    Abstract: 本发明属于基于膜分离的气体回收和浓缩技术领域。其特征在于,该装置里含有一个鼓泡环流分离器或中空纤维膜分离器作为二氧化碳吸收部分,另一个中空纤维膜管作为二氧化碳解吸用。该吸收部顶部设有吸收液进入管和尾气排出管,而底部有经过气体分布器后自下而上进入该反应器底部的废气进入管;所述接触器的中部经连通管与该反应器中部相连,使夹带气体二氧化碳的吸收液进入接触器底部,该接触器底部的液体经循环泵后进入该反应器下部,在已与吸收剂混合的废气带动下,进入该反应器中部,实现气液分离,所述接触器顶部接有真空泵或蒸汽源,把中空纤维膜管内的二氧化碳气体带走。本发明具有相际接触面积大,减少吸收剂损失,解吸耗能低,设备体积小的优点。

    一种紧凑式大功率LED阵列
    28.
    发明授权

    公开(公告)号:CN100483010C

    公开(公告)日:2009-04-29

    申请号:CN200510011451.6

    申请日:2005-03-21

    Applicant: 清华大学

    Abstract: 一种紧凑式大功率LED阵列,属于发光二极管的应用技术领域,其特征在于,它在出光平面方向由多个LED阵列单元水平拼装而成,每个LED阵列单元含有厚达数厘米且用高热导率材料制成的底板,固定在底板正面的集群式LED,从底板背面或侧面开的孔中插入的集群式热管以及固定在热管冷凝端的散热片。本发明中底板温度均匀,系统热阻小,能维持上百个LED协同稳定地工作,形成数千流明的光源,结构简洁,适用于居家、道路照明等。

    一种残差长短期记忆循环神经网络的声学模型建模方法

    公开(公告)号:CN107293288B

    公开(公告)日:2020-04-21

    申请号:CN201710432477.0

    申请日:2017-06-09

    Applicant: 清华大学

    Inventor: 黄露 杨毅 孙甲松

    Abstract: 一种残差长短期记忆循环神经网络的声学模型建模方法,将标准的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度;本发明提出的方法,给出一个供于直连的内部节点位置,实验表明此位置能够带来识别的性能提升,并结合基于帧的Dropout技术进一步提升系统性能;这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能,并且结合基于帧的Dropout技术来防止过拟合问题,实现了提升模型泛化能力的目的,该方法可广泛应用于涉及语音识别的多种人机交互领域。

Patent Agency Ranking