一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238B

    公开(公告)日:2023-12-08

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况(56)对比文件金马 等.基于卷积神经网络的语种识别系统《.数据采集与处理》.2019,第34卷(第2期),第321-330页.

    一种针对声纹识别的语音降噪方法及装置

    公开(公告)号:CN110070874B

    公开(公告)日:2021-07-30

    申请号:CN201810065088.3

    申请日:2018-01-23

    Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。

    一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

    公开(公告)号:CN112820301A

    公开(公告)日:2021-05-18

    申请号:CN202110277452.4

    申请日:2021-03-15

    Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

    一种语音检测模型训练和语音检测方法

    公开(公告)号:CN116597818A

    公开(公告)日:2023-08-15

    申请号:CN202310440282.6

    申请日:2023-04-21

    Abstract: 本申请提供一种语音检测模型的训练方法,包括:采集训练语音检测模型使用的语音,分别提取语音中每一条语音的声纹特征并进行差分得到第一特征信号。将第一特征信号作为神经网络的输入,使用损失函数迭代训练神经网络的参数,直至满足结束条件,得到目标语音检测模型。神经网络用于学习第一特征信号中携带的时序信息。由此,通过建立可以深度学习语音所携带时序信息的目标语音检测模型,可以提高对语音信号的真伪进行检测的准确性和鲁棒性。

    全连接多尺度的残差网络及其进行声纹识别的方法

    公开(公告)号:CN111833886B

    公开(公告)日:2021-03-23

    申请号:CN202010731632.0

    申请日:2020-07-27

    Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。

    一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

    公开(公告)号:CN112820301B

    公开(公告)日:2023-01-20

    申请号:CN202110277452.4

    申请日:2021-03-15

    Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

Patent Agency Ranking