-
公开(公告)号:CN104795062A
公开(公告)日:2015-07-22
申请号:CN201510124247.9
申请日:2015-03-20
Applicant: 中国人民解放军信息工程大学
IPC: G10L15/07
Abstract: 本发明涉及一种基于压缩感知的说话人自适应方法,属于连续语音识别的声学模型自适应技术领域。本发明将说话人自适应视为一种高维信号的稀疏分解问题,在训练阶段联合本征音超矢量和训练说话人超矢量构造超矢量字典;在自适应阶段,在稀疏约束条件下,应用匹配追踪算法和l1正则化原理选择若干个超矢量进行线性组合,对未知说话人超矢量进行逼近从而达到说话人自适应的目的。本发明借助于压缩感知理论在子空间基的构造上采用更一般化的超矢量字典;二是在基的选择上,采用匹配追踪原理和投影梯度算法求接得到说话人超矢量的稀疏表达。相比传统的子空间方法,在少量自适应数据量条件下,本发明的自适应效果优于现有的基于说话人子空间的自适应方法。
-
公开(公告)号:CN104795063A
公开(公告)日:2015-07-22
申请号:CN201510124249.8
申请日:2015-03-20
Applicant: 中国人民解放军信息工程大学
IPC: G10L15/14
Abstract: 本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在该非线性低维流形结构上,估计其观测概率模型;每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定;通过迭代过程,分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明所构建的声学模型的非线性假设条件更为合理,具有直观的物理意义,且声学模型中大量的参数是状态无关的,特别适用于训练数据量较少时的连续语音识别声学建模。
-