Patent search ap:("武汉大学") AND inv:"黄逸焕" Page 1

1.

发明公开
基于F-ratio自适应掩蔽的声纹识别系统对抗防御方法及系统审中-实审

公开(公告)号：CN117219085A

公开(公告)日：2023-12-12

申请号：CN202311208362.5

申请日：2023-09-18

Applicant: 武汉大学

Inventor： 任延珍 , 孙宗锟 , 黄逸焕 , 刘武洋 , 朱洪承

IPC: G10L17/02 , G10L17/06 , G10L21/0232

Abstract: 本发明公开了一种基于F‑ratio自适应掩蔽的声纹识别系统对抗防御方法，本发明首先对输入语音进行特征提取，获得幅度谱图；对幅度谱图进行去噪得到去噪幅度谱图；使用F‑ratio统计去噪幅度谱图中用以区分说话人的高相关频带集合和低相关频带集合；然后分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值；对幅度谱图进行遮掩得到重构幅度谱图；将重构幅度谱图利用librosa.griffinlim变换，得到对应波形信号作为重构语音；最后使用批量干净样本进行语音重构，使用重构语音进行SRS微调训练，以保证SRS的分类性能。本发明均表现出明显的防御性优势，平均防御能力展现出本方案对于不同攻击的防御通用性，此外，因为本发明不涉及额外的数据和训练，所以本方案具备低成本的性质。

2.

发明公开
一种基于面部关键点的伪造说话人脸检测方法及系统审中-实审

公开(公告)号：CN119964215A

公开(公告)日：2025-05-09

申请号：CN202510022868.X

申请日：2025-01-07

Applicant: 武汉大学

Inventor： 任延珍 , 彭荔 , 黄逸焕

IPC: G06V40/16 , G06V40/40 , G06V40/20 , G06V10/764 , G06V10/82 , G06N3/042 , G06N3/0442 , G06N3/045 , G06N3/08

Abstract: 本发明提供一种基于面部关键点的伪造说话人脸检测方法及系统，通过对说话行为所带来的肌肉运动以及深度伪造说话人脸视频生成过程带来的伪造线索的深入分析，设计了面部关键点连接网络，以图注意力网络为主干网络，在保留面部拓扑结构的基础上，实现了对面部真伪特征的提取；同时考虑到长短时特征在视频伪造检测的重要性，通过在图网络中建立时序连接实现短时特征建模，通过循环神经网络实现长时特征建模。本发明的优势在于能提供准确且鲁棒的伪造说话人脸检测。

3.

发明公开
一种音素模板的实时对抗样本生成方法及计算机可读介质审中-实审

公开(公告)号：CN117672260A

公开(公告)日：2024-03-08

申请号：CN202311466244.4

申请日：2023-11-02

Applicant: 武汉大学

Inventor： 任延珍 , 黄逸焕 , 翟黎明 , 孙宗锟

IPC: G10L25/48 , G06F18/243 , G06N20/20 , G06N5/01 , G06F18/214 , G10L25/18 , G10L25/21 , G10L25/24 , G10L19/02

Abstract: 本发明提出了一种实时对抗样本生成方法和计算机可读介质。本发明从多个WAV音频信号中提取多帧滑动窗口幅度谱、多帧滑动窗口相位谱以及梅尔特征，并标记真实音素标签；利用随机森林分类器训练多个决策树分类器；将语音信号划分为训练集和测试集，提取其特征，并使用训练后的单帧音素识别器进行分类，以获得预测音素标签；从多个说话人的音频信号中提取子频带的能量特征，计算子频带的能量均值和方差检验值；通过差分进化算法，优化每种音素标签的阈值，结合语音特征和预测标签生成对抗样本，以最大化词错误率和信噪比。本发明具有实时性、抗压缩性和抗ASR识别特性，能够提高通话隐私安全性。

4.

发明公开
一种针对说话人识别系统的语音对抗防御方法及系统审中-实审

公开(公告)号：CN119943057A

公开(公告)日：2025-05-06

申请号：CN202510022873.0

申请日：2025-01-07

Applicant: 武汉大学

Inventor： 任延珍 , 沈茹冰 , 孙宗锟 , 王景民 , 黄逸焕 , 涂卫平

IPC: G10L17/02 , G10L17/04 , G10L17/06 , G06N3/094

Abstract: 本发明提供一种针对说话人识别系统的语音对抗防御方法及系统，提出一种新型的对抗净化框架SA‑Net，其关键思路是在特征层面采用“先减法后加法”策略，减法步骤通过分析说话人特征的分布，过滤掉非鲁棒特征，从而压缩对抗噪声的生存空间；加法步骤则重建完整的语音信号，使得说话人识别系统能够准确识别，而无需额外的微调或重新训练。本发明在两个开源的SRS上对于抵御自适应攻击时的平均防御准确率达到87.8%，同时保持了98.5%的正常识别准确率，分别比Parallel WaveGAN高出29.3%和2.8%。此外，本发明具有较强的防御能力和广泛的适用性，可作为各种部署中的SRS的即插即用防线。

Patent Agency Ranking