-
公开(公告)号:CN117558291A
公开(公告)日:2024-02-13
申请号:CN202311312313.6
申请日:2023-10-11
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
Abstract: 本发明公开了一种基于半监督模型的声音检测方法,通过针对无标签音频数据的对数梅尔频谱对进行弱增强策略、强增强策略,分别得到弱增强、强增强对数梅尔频谱对。本发明以强标签、弱标签、无标签对数梅尔频谱、弱增强、强增强对数梅尔频谱对为输入、音频数据的类别和时间为输出,构建和训练教师模型和学生模型,并且在训练学生模型过程中,针对弱增强、强增强对数梅尔频谱图的预测值进行相似损失计算,针对强标签、弱标签对数梅尔频谱图的预测值进行分类损失计算;同时计算教师模型和学生模型的一致性损失,最终得到半监督声音检测模型。本发明优化改进了现有的平均教师模型,提出了相似损失的概念;通过充分利用无标签数据提升了检测的准确度。
-
公开(公告)号:CN120048241A
公开(公告)日:2025-05-27
申请号:CN202510192231.5
申请日:2025-02-21
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L13/02 , G10L13/033 , G10L25/18 , G10L25/30 , G10L25/90
Abstract: 本发明涉及语言转换技术领域,具体涉及一种基于图卷积网络的匿名说话人攻击方法;包括如下步骤:将F0特征与原始F0特征进行拼接融合作为新F0特征;提取音频的特征并进行矢量量化;将处理后的F0特征和特征进行拼接,生成匿名化语音;计算来自试验话语和注册话语的说话者嵌入;输出匿名化试验话语嵌入和匿名化注册话语嵌入的相似性分数,根据分数判断是否属于同一说话人;通过多个试验和注册话语对,计算等错误率作为性能指标,评估攻击者系统对匿名化系统的攻击能力;通过考虑F0特征不同帧之间的时间相关性,利用图卷积网络和F0特征协同匿名说话人身份信息,来提升攻击者系统性能。
-
公开(公告)号:CN119993175A
公开(公告)日:2025-05-13
申请号:CN202510157170.9
申请日:2025-02-13
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L21/02 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0464
Abstract: 本发明涉及语音增强技术领域,具体涉及一种基于改进卷积循环网络的轻量化单通道语音增强方法:充分利用改进卷积循环网络在提取特征时的出色能力,使用聚合分组双路径循环网络和卷积混合分组双路径循环网络来提升多通道的深度时频特征以及对各通道之间的特征进行融合,使得深度特征所包含的语音信息更加的丰富,再利用深度特征来训练分离模型,进一步增强语音的性能,并且提出了聚合分组双路径循环网络和卷积混合分组双路径循环网络,改进了分组双路径循环网络架构,不仅使得卷积循环网络的语音增强性能得到了提升,而且保持了模型的轻量化,从而提高了增强模型的有效性,使得增强语音的清晰度和可懂度提高。
-
公开(公告)号:CN118918900A
公开(公告)日:2024-11-08
申请号:CN202411154941.0
申请日:2024-08-22
Applicant: 南京龙垣信息科技有限公司 , 南京邮电大学
Abstract: 本发明涉及电子数字数据处理技术领域,具体涉及一种基于说话人语音微动作的说话人识别方法,包括:语音流经过预处理后提取Fbank特征分别送入教师网络和学生网络中,得到各自对应的特征嵌入;将教师网络和学生网络分别得到的特征嵌入送入loss函数中并进行反向传播;学生网络正常迭代,教师网络通过EMA滑动平均的方法进行迭代;将经过ECAPA‑TDNN声纹模型提取得到的声纹特征信息与通过口音数据训练得到的说话人语音微动作信息进行特征聚合和分类,进行说话人识别;本发明利用数据增强等方法提升模型的泛化性能,避免拟合在信道特征当中,且不需要人工标注,并通过引入新的特征来帮助说话人验证模型取得在更大人群中识别说话人的能力。
-
-
-