-
公开(公告)号:CN116758943A
公开(公告)日:2023-09-15
申请号:CN202310820588.4
申请日:2023-07-05
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例公开一种合成语音检测方法、装置、电子设备及存储介质,涉及语音识别技术领域,能够提高检测合成语音的准确率。所述方法包括:获取第一集合中的第一语音信号;第一语音信号包括真实语音信号以及合成语音信号;基于第一语音信号以及预设分类模型,生成第一交叉熵损失函数;生成分类模型的当前模型参数下的近似第一集合外的数据的后验分布特征,基于后验分布特征,生成第二交叉熵损失函数;基于第一交叉熵损失函数以及第二交叉熵损失函数,生成总损失函数;利用总损失函数进行梯度回传,对分类模型进行参数更新,以获得更新后的分类模型;将待检测语音信号的声学特征输入所述更新后的分类模型,以获得待检测语音信号的检测结果。
-
公开(公告)号:CN113539238A
公开(公告)日:2021-10-22
申请号:CN202010247070.2
申请日:2020-03-31
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。
-
公开(公告)号:CN111833886A
公开(公告)日:2020-10-27
申请号:CN202010731632.0
申请日:2020-07-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。
-
公开(公告)号:CN112820301B
公开(公告)日:2023-01-20
申请号:CN202110277452.4
申请日:2021-03-15
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。
-
公开(公告)号:CN110070874A
公开(公告)日:2019-07-30
申请号:CN201810065088.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02 , G10L17/10 , G10L21/0208
Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
-
-
-