一种基于多层次交互的多模态情感识别方法

    公开(公告)号:CN118152919A

    公开(公告)日:2024-06-07

    申请号:CN202410049654.7

    申请日:2024-01-12

    Abstract: 本发明提出了一种基于多层次交互的多模态情感识别方法,属于深度学习、情感识别领域。很多多模态情感识别方法试图在多个粒度级别上实现交互,但是不同的模态通常在时间和语义上是不对齐的,因此很难实现细粒度级别的交互。本发明提出一种基于多层次交互的多模态情感识别方法。首先,该方法将语音分成固定长度的片段,并通过帧级别交互将片段中的帧与相应的文本单词进行对齐。然后通过词级别交互Transformer,从文本模态和语音模态学习词级别情感嵌入。最后,引入句子级别交互Transformer进行模态融合。该方法通过多层次交互,充分挖掘语音和文本在不同细粒度级别的情感相关性,提高了情感识别的性能。

    一种基于交互式注意力模型的语音情感识别方法

    公开(公告)号:CN112700796B

    公开(公告)日:2022-09-23

    申请号:CN202011521398.5

    申请日:2020-12-21

    Inventor: 陈仙红 鲍长春

    Abstract: 本发明提出一种基于交互式注意力模型的语音情感识别方法,属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息,这两种信息对情感识别有重要作用。与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别,包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型,在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。

    一种基于局部聚类和域注意网络的说话人确认方法

    公开(公告)号:CN116863942A

    公开(公告)日:2023-10-10

    申请号:CN202310819237.1

    申请日:2023-07-06

    Abstract: 本发明提出了一种基于局部聚类和域注意网络的说话人确认方法,属于深度学习、声纹识别领域。说话人确认方法在目标域和源域数据不匹配时,性能会大幅度下降,需要进行域自适应。现有域自适应方法有的需要访问源域的数据,有的在域自适应后会遗忘对源域数据的识别。针对这些问题,本发明提出一种基于局部聚类和域注意网络的说话人确认方法。该方法通过对目标域数据进行局部聚类来自动产生标签,从而在域自适应时无需访问源域数据。同时,为避免域自适应后的模型对源域产生遗忘,引入域注意网络。通过本发明提出的方法,在仅有无标签的目标域数据的情况下就能进行域自适应,并且模型不会遗忘对源域数据的识别,提高了说话人确认方法的性能。

    一种基于音素滤波的说话人识别方法

    公开(公告)号:CN111951783B

    公开(公告)日:2023-08-18

    申请号:CN202010810083.6

    申请日:2020-08-12

    Inventor: 陈仙红

    Abstract: 本发明提出一种基于音素滤波的说话人识别方法,属于声纹识别、模式识别与机器学习领域。为克服传统说话人识别技术,没有考虑语音内容信息的影响的问题,本发明提出一种基于音素滤波的说话人识别方法。该方法为语音的每种音素建立一个音素滤波器,在进行说话人识别前,根据每一帧语音对应的音素,选择对应的音素滤波器对内容信息进行去除。从而减小内容信息对说话人识别的影响,有效地提高说话人识别的准确率。本发明的特征在于,包括模型训练阶段和测试阶段,其中模型训练包括语音预处理、音素识别、音素滤波、池化、说话人识别、最小化交叉熵步骤。测试阶段包括语音预处理、音素识别、音素滤波、池化、说话人识别步骤。

    一种基于距离相关的度量学习的说话人确认方法

    公开(公告)号:CN114067803B

    公开(公告)日:2025-01-03

    申请号:CN202111223654.7

    申请日:2021-10-21

    Abstract: 本发明提出一种基于距离相关的度量学习的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,对训练语音预处理,提取每条语音的说话人嵌入,采用基于距离相关的度量学习方法训练打分模型;在说话人确认阶段,给定两条待测语音,通过基于距离相关的度量学习方法训练得到的打分模型,得到两条语音的距离,从而判断是否是同一个人说的。本发明在对说话人嵌入进行打分时,根据说话人嵌入之间的距离不同,给予不同的度量函数,可以提高说话人确认的准确率。

    一种基于交互式注意力模型的语音情感识别方法

    公开(公告)号:CN112700796A

    公开(公告)日:2021-04-23

    申请号:CN202011521398.5

    申请日:2020-12-21

    Inventor: 陈仙红 鲍长春

    Abstract: 本发明提出一种基于交互式注意力模型的语音情感识别方法,属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息,这两种信息对情感识别有重要作用。与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别,包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型,在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。

    基于词级别交互和逐词情感量加权的多模态情感分析方法

    公开(公告)号:CN118734240A

    公开(公告)日:2024-10-01

    申请号:CN202410724664.6

    申请日:2024-06-05

    Inventor: 顾一凡 陈仙红

    Abstract: 基于词级别交互和逐词情感量加权的多模态情感分析方法属于深度学习技术领域。本发明首先利用BERT和Wav2vec 2.0预训练模型实现文本模态和语音模态词级别特征向量的提取;利用Transformer编码器和线性层得到文本语音双模态词级别交互的语句级特征向量;利用Bi‑LSTM模型实现对词级别特征向量按逐词情感含量加权,得到逐词情感含量加权的文本语音双模态语句级特征向量。最后实现将文本语音双模态词级别交互的语句级特征向量和逐词情感含量加权的文本语音双模态语句级特征向量融合得到多模态含多粒度信息的语句级特征向量,并利用全连接网络对语句情感识别。本发明降低粒度差异导致的情感信息丢失。

    一种基于CTC多层损失的语音识别方法

    公开(公告)号:CN115019782B

    公开(公告)日:2024-07-16

    申请号:CN202210619908.5

    申请日:2022-06-02

    Abstract: 一种基于CTC多层损失的语音识别方法,属于模式识别、声学领域。该方法对语音识别网络不同层的输出进行规范,使不同层的输出尽量接近所需要的语音识别结果,从而提高语音识别的性能。该方法包括模型训练与模型测试两个阶段:在训练阶段,将预处理后的训练集输入所搭建的多层语音识别网络中,计算不同层的损失和不同层的权重,将不同层损失加权求和得到多层损失,循环计算损失,更新网络参数直至收敛;在测试阶段,将预处理后的测试集输入训练好的多层语音识别网络,输出识别结果。本发明仅仅改变CTC语音识别模型训练阶段的损失函数,并不改变CTC语音识别模型的结构及其语音识别的过程,以低复杂度、低开销的特点提高语音识别的准确率。

    一种基于超图神经网络的说话人确认方法

    公开(公告)号:CN117153165A

    公开(公告)日:2023-12-01

    申请号:CN202310903359.9

    申请日:2023-07-22

    Inventor: 陈仙红 张汐宇

    Abstract: 一种基于超图神经网络的说话人确认方法,属于语音信号处理、声纹识别领域。该方法包括模型训练和说话人确认两个阶段。模型训练阶段包括数据预处理与特征提取、说话人识别模型训练及说话人嵌入提取、超图神经网络构建与训练三个步骤。说话人确认阶段包括对待识别的说话人进行注册、判断测试语音是否是待识别说话人说的两个步骤。该方法在已有的x‑vector模型的基础上,对训练语音样本提取说话人嵌入,并以说话人嵌入为节点构建超图神经网络从而学习样本与样本之间复杂的关系。本发明充分利用了样本与样本之间的关联信息,更好地缩小同类样本间的距离并扩大异类样本间的距离,可提高说话人确认的准确率。

    一种基于CTC多层损失的语音识别方法

    公开(公告)号:CN115019782A

    公开(公告)日:2022-09-06

    申请号:CN202210619908.5

    申请日:2022-06-02

    Abstract: 一种基于CTC多层损失的语音识别方法,属于模式识别、声学领域。该方法对语音识别网络不同层的输出进行规范,使不同层的输出尽量接近所需要的语音识别结果,从而提高语音识别的性能。该方法包括模型训练与模型测试两个阶段:在训练阶段,将预处理后的训练集输入所搭建的多层语音识别网络中,计算不同层的损失和不同层的权重,将不同层损失加权求和得到多层损失,循环计算损失,更新网络参数直至收敛;在测试阶段,将预处理后的测试集输入训练好的多层语音识别网络,输出识别结果。本发明仅仅改变CTC语音识别模型训练阶段的损失函数,并不改变CTC语音识别模型的结构及其语音识别的过程,以低复杂度、低开销的特点提高语音识别的准确率。

Patent Agency Ranking