一种语音转换说话人溯源方法及装置

    公开(公告)号:CN116665687A

    公开(公告)日:2023-08-29

    申请号:CN202310236391.6

    申请日:2023-03-10

    Applicant: 武汉大学

    Abstract: 本发明公开了一种语音转换说话人溯源方法及装置。针对语音转换技术在实际应用过程中滥用时难以主动追溯源说话人身份的问题,本发明设计了一个基于异步VAE‑Glow的追溯方法,既能在语音转换过程中并行隐藏源说话人身份,又能从压缩的转换语音中准确地恢复隐藏的源说话人身份甚至原始语音。本方法可与任意的语音转换框架集成并用于各类社交媒体和语音通话应用中,在不影响转换语音质量的前提下实现说话人身份的隐藏和溯源,在面临大范围比特率(16~128kbps)的主流音频和语音压缩标准(如AAC、MP3、Opus和SILK)时仅凭0.74s的语音就能实现接近100%的溯源准确率。

    基于F-ratio自适应掩蔽的声纹识别系统对抗防御方法及系统

    公开(公告)号:CN117219085A

    公开(公告)日:2023-12-12

    申请号:CN202311208362.5

    申请日:2023-09-18

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于F‑ratio自适应掩蔽的声纹识别系统对抗防御方法,本发明首先对输入语音进行特征提取,获得幅度谱图;对幅度谱图进行去噪得到去噪幅度谱图;使用F‑ratio统计去噪幅度谱图中用以区分说话人的高相关频带集合和低相关频带集合;然后分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值;对幅度谱图进行遮掩得到重构幅度谱图;将重构幅度谱图利用librosa.griffinlim变换,得到对应波形信号作为重构语音;最后使用批量干净样本进行语音重构,使用重构语音进行SRS微调训练,以保证SRS的分类性能。本发明均表现出明显的防御性优势,平均防御能力展现出本方案对于不同攻击的防御通用性,此外,因为本发明不涉及额外的数据和训练,所以本方案具备低成本的性质。

    一种音素模板的实时对抗样本生成方法及计算机可读介质

    公开(公告)号:CN117672260A

    公开(公告)日:2024-03-08

    申请号:CN202311466244.4

    申请日:2023-11-02

    Applicant: 武汉大学

    Abstract: 本发明提出了一种实时对抗样本生成方法和计算机可读介质。本发明从多个WAV音频信号中提取多帧滑动窗口幅度谱、多帧滑动窗口相位谱以及梅尔特征,并标记真实音素标签;利用随机森林分类器训练多个决策树分类器;将语音信号划分为训练集和测试集,提取其特征,并使用训练后的单帧音素识别器进行分类,以获得预测音素标签;从多个说话人的音频信号中提取子频带的能量特征,计算子频带的能量均值和方差检验值;通过差分进化算法,优化每种音素标签的阈值,结合语音特征和预测标签生成对抗样本,以最大化词错误率和信噪比。本发明具有实时性、抗压缩性和抗ASR识别特性,能够提高通话隐私安全性。

    一种针对说话人识别系统的语音对抗防御方法及系统

    公开(公告)号:CN119943057A

    公开(公告)日:2025-05-06

    申请号:CN202510022873.0

    申请日:2025-01-07

    Applicant: 武汉大学

    Abstract: 本发明提供一种针对说话人识别系统的语音对抗防御方法及系统,提出一种新型的对抗净化框架SA‑Net,其关键思路是在特征层面采用“先减法后加法”策略,减法步骤通过分析说话人特征的分布,过滤掉非鲁棒特征,从而压缩对抗噪声的生存空间;加法步骤则重建完整的语音信号,使得说话人识别系统能够准确识别,而无需额外的微调或重新训练。本发明在两个开源的SRS上对于抵御自适应攻击时的平均防御准确率达到87.8%,同时保持了98.5%的正常识别准确率,分别比Parallel WaveGAN高出29.3%和2.8%。此外,本发明具有较强的防御能力和广泛的适用性,可作为各种部署中的SRS的即插即用防线。

    基于块级别对比学习的声码器指纹识别方法、系统及设备

    公开(公告)号:CN118016101A

    公开(公告)日:2024-05-10

    申请号:CN202410094742.9

    申请日:2024-01-23

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于块级别对比学习的声码器指纹识别方法、系统及设备,基于一种新的声码器架构归因方案VFD‑Net(声码器指纹检测网络),可以在跨数据集和压缩场景中有效地跟踪伪造语音来源。本发明利用块级别的监督对比学习来捕获全局一致性的声码器指纹,这有助于将属于同一类(虚假语音类型或声码器类型)的块在表示空间中更接近,同时将来自不同类的块推得更远。本发明在跨数据集和AAC压缩场景下比现有方法提高了30%‑45%;并且在1s短时长的伪造语音测试场景下,准确率为83.67%,比现有方法提高了37.90%。此外,本发明可以通过分析声码器指纹的一致性实现对于部分伪造检测的应用。

    一种基于人类听觉反馈机制的声音活体检测方法及系统

    公开(公告)号:CN117854539A

    公开(公告)日:2024-04-09

    申请号:CN202311867810.2

    申请日:2023-12-29

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于人类听觉反馈机制的声音活体检测方法及系统,为了保护说话人验证系统免受伪造语音的欺骗,本发明首次将活体说话人在嘈杂环境下会不由自主地改变自己说话模式的Lombard效应引入声音活体检测,并提出了基于Lombard效应的声音活体检测框架Lombard‑VLD。为了改善Lombard‑VLD的鲁棒性和泛化性,本发明设计了基于参考的双输入模式和差分增强网络,以普通语音的特征为参考,对Lombard语音与普通语音之间的差异性特征进行提取和增强。本发明利用Lombard效应所导致的活体说话人发声模式的差异实现了低成本、高准确率、鲁棒性强、泛化性强的声音活体检测,可以方便地应用到各种类型的移动设备中以实现高效的说话人验证系统的反欺骗前置防护上。

Patent Agency Ranking