一种基于交互式注意力模型的语音情感识别方法

    公开(公告)号:CN112700796B

    公开(公告)日:2022-09-23

    申请号:CN202011521398.5

    申请日:2020-12-21

    Inventor: 陈仙红 鲍长春

    Abstract: 本发明提出一种基于交互式注意力模型的语音情感识别方法,属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息,这两种信息对情感识别有重要作用。与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别,包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型,在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。

    一种沉浸式宽带3D声场重放方法

    公开(公告)号:CN108632709A

    公开(公告)日:2018-10-09

    申请号:CN201810352481.0

    申请日:2018-04-19

    Abstract: 本发明公开一种沉浸式宽带3D声场重放方法,首先,计算在指定空间位置放置的场景A的虚拟声源到场景B中各个听音点的声学传输函数,将该函数值作为虚拟声源辐射声场的声压值;其次,设定场景B中某一墙面的扬声器阵列为规则的矩形等间距布局,并基于声波的波动特性,利用格林函数来建模所有扬声器到听音点的声学传播特征;再次,基于线性凸优化理论,将l1范数作为稀疏规则算子利用交替方向乘子法进行正则化运算,选取1倍频程内八个频带的中心频率计算扬声器权值,进行激活扬声器选取。最后,利用l2范数正则化,计算重放系统中激活扬声器的权值信号,使得在最小均方准则下,待重放声源的辐射声场和激活扬声器的辐射声场最接近。

    一种基于球谐展开的多声道转换方法

    公开(公告)号:CN103888889A

    公开(公告)日:2014-06-25

    申请号:CN201410137391.1

    申请日:2014-04-07

    Abstract: 本发明提出一种基于球谐展开的多声道转换方法,主要适用于将L1路多声道扬声器系统转换为L2路多声道扬声器系统。基于声场的线性叠加理论,根据声道数的不同采用相应阶数的球谐函数分别计算转换前后扬声器系统的声场,在保证转换前后扬声器系统在一定阶数下球谐展开声场相同的情况下,计算出转换后系统各个扬声器的增益系数。本发明实时运算复杂度低,能够在转换后系统上恢复出听音区域内原始重放系统的声场,可用于多声道三维音频系统的精简压缩及上混合技术,可以有效地兼容各种扬声器重放系统及减少传输带宽。

    用于嵌入式语音编码的帧擦除隐藏方法及系统

    公开(公告)号:CN101256774B

    公开(公告)日:2011-04-13

    申请号:CN200710085364.4

    申请日:2007-03-02

    Abstract: 本发明实施例提供了一种用于嵌入式语音编码的帧擦除隐藏方法及系统,该方法为用丢失帧之前接收到的帧的语音信号内插得到所述丢失帧的各参数,包括线谱频率参数和激励,根据所述线谱频率参数和激励恢复得到所述丢失帧的合成语音,得到所述激励中的自适应码书的步骤为:根据所述丢失帧的前一非丢失帧的速率,选择不同的激励内插得到所述丢失帧的自适应码书。在帧擦除隐藏时,对于恢复丢失帧的自适应码书所使用的内插激励根据前一非丢失帧的速率进行选择,这样得到的自适应码书更接近丢失帧的原始编码信号,从而提高了帧擦除隐藏的质量。

    嵌入式语音或音频信号编解码方法和装置

    公开(公告)号:CN101572087A

    公开(公告)日:2009-11-04

    申请号:CN200810094434.7

    申请日:2008-04-30

    Abstract: 本发明公开了一种嵌入式语音或音频信号编解码方法和装置,涉及编码技术,为解决现有的嵌入式语音编码能够处理的信号频带较窄的问题而发明。本发明的技术方案为:嵌入式语音或音频信号编码方法,包括:根据单声道超宽带语音或音频信号所占用的频带,将所述信号划分成低频子频带和高频子频带;在宽带嵌入式编码层,对单声道超宽带语音或音频信号的低频子频带信号进行嵌入式编码;在预设的高频信号编码层,对单声道超宽带单声道语音或音频信号的高频子频带信号进行嵌入式编码。本发明实施例提供的嵌入式语音或音频信号编解码方法和装置可以应用在音/视频会议、电视电话会议、网络通信、移动通信、网络拥塞控制以及第三代和第四代移动通信领域中。

    嵌入式编码、解码方法、编码器、解码器及系统

    公开(公告)号:CN101256771A

    公开(公告)日:2008-09-03

    申请号:CN200710085362.5

    申请日:2007-03-02

    Abstract: 本发明实施例提供了一种嵌入式编码方法、解码方法、编码器、解码器和系统,该编码方法包括如下步骤:对语音信号进行代数码激励线性预测ACELP编码,得到ACELP层的码流;对语音信号进行变换域编码,得到变换域层的码流。由于ACELP编码通过逐级细化激励信号,较低码率的编码信号对应于包含代数脉冲数较少的激励信号,随着码率的提升,逐层增加代数脉冲的方式不断细化激励信号,当代数脉冲增加到一定数量后,对激励信号的细化作用不明显或者变差,因此本发明实施例采用ACELP和变换域编码联合编码的方式得到嵌入式码流,用变换域编码弥补ACELP编码的不足,从而保证了合成语音的质量。

    一种基于CTC多层损失的语音识别方法

    公开(公告)号:CN115019782B

    公开(公告)日:2024-07-16

    申请号:CN202210619908.5

    申请日:2022-06-02

    Abstract: 一种基于CTC多层损失的语音识别方法,属于模式识别、声学领域。该方法对语音识别网络不同层的输出进行规范,使不同层的输出尽量接近所需要的语音识别结果,从而提高语音识别的性能。该方法包括模型训练与模型测试两个阶段:在训练阶段,将预处理后的训练集输入所搭建的多层语音识别网络中,计算不同层的损失和不同层的权重,将不同层损失加权求和得到多层损失,循环计算损失,更新网络参数直至收敛;在测试阶段,将预处理后的测试集输入训练好的多层语音识别网络,输出识别结果。本发明仅仅改变CTC语音识别模型训练阶段的损失函数,并不改变CTC语音识别模型的结构及其语音识别的过程,以低复杂度、低开销的特点提高语音识别的准确率。

    一种基于CTC多层损失的语音识别方法

    公开(公告)号:CN115019782A

    公开(公告)日:2022-09-06

    申请号:CN202210619908.5

    申请日:2022-06-02

    Abstract: 一种基于CTC多层损失的语音识别方法,属于模式识别、声学领域。该方法对语音识别网络不同层的输出进行规范,使不同层的输出尽量接近所需要的语音识别结果,从而提高语音识别的性能。该方法包括模型训练与模型测试两个阶段:在训练阶段,将预处理后的训练集输入所搭建的多层语音识别网络中,计算不同层的损失和不同层的权重,将不同层损失加权求和得到多层损失,循环计算损失,更新网络参数直至收敛;在测试阶段,将预处理后的测试集输入训练好的多层语音识别网络,输出识别结果。本发明仅仅改变CTC语音识别模型训练阶段的损失函数,并不改变CTC语音识别模型的结构及其语音识别的过程,以低复杂度、低开销的特点提高语音识别的准确率。

    一种利用声源间稀疏成分均衡的多声源定位方法

    公开(公告)号:CN110398716B

    公开(公告)日:2021-05-28

    申请号:CN201910784643.2

    申请日:2019-08-23

    Abstract: 本发明提出一种利用声源间稀疏成分均衡的多声源定位方法,通过均衡各声源的稀疏成分以获得更准确的方向估计。首先将声场麦克风信号变换到频域得到频域系数,对其按频率范围进行子带划分并计算声场麦克风各通路间的归一化互相关系数;其次,检测单声源子带,估计单声源子带内各时‑频点的角度;再次,利用均衡处理区间内各帧的帧内强稀疏性声源确定区间强稀疏性声源,结合历史均衡处理区间的时‑频点角度估计值和区间强稀疏性声源确定全局强稀疏性声源角度并设立移除范围,对当前均衡处理区间内角度估计值落入移除范围的时‑频点成分进行移除;最后,对若干个经过均衡处理后的区间内的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。

    一种多区域不同语音声源的2.5D重放方法

    公开(公告)号:CN106303843A

    公开(公告)日:2017-01-04

    申请号:CN201610616173.5

    申请日:2016-07-29

    CPC classification number: H04R5/02 H04R2205/024 H04S7/302

    Abstract: 本发明公开一种多区域不同语音声源的2.5D重放方法,将S路语音信号变换到频域,提取各频率系数的幅度信息,并基于幅度信息得到空间内各相应目标子声场的二维柱谐展开表达式;基于空间柱谐系数转换理论,通过空间转移算子把S组子区域声场系数转换为一组整体的声场柱谐展开系数;基于空间声场的线性叠加理论和球贝塞尔函数的附加理论,得到高阶扬声器阵列重建声场的三维球谐表达式,在最小均方准则下计算出2.5D重放系统中各高阶扬声器的模式权值;将高阶扬声器模式权值变换到时域,得到高阶扬声器内各指向性扬声器的时域重放信号。本发明解决了实际三维扬声器和二维重建声场间的维度不匹配问题,同时能够在S个区域重放S个不同的声源信号。

Patent Agency Ranking