基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法

    公开(公告)号:CN114093371B

    公开(公告)日:2024-12-03

    申请号:CN202111178765.0

    申请日:2021-10-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法,系统包括音素识别器、扰动生成器、听感抑制器、替代分类器和系统优化器,听感抑制器生成受抑制扰动与音素识别器生成的对齐语音叠加生成对抗样本,对抗样本通过替代分类器分类将分数发送至系统优化器并将梯度反向传播给扰动生成器进行迭代更新,得到一个训练好的音素扰动生成器。本发明创新性地提出融合语音中的音素信息进行扰动构造,利用音素识别器识别和定位语音中的音素并在音素级别生成细粒度的通用对抗扰动,从而使得一步生成的对抗扰动能够重用于任意语音文本输入,最终实现文本无关、输入无关的通用对抗样本生成,极大提升对抗样本的生成效率。

    一种基于半脆弱水印的音频溯源装置及方法

    公开(公告)号:CN118887963A

    公开(公告)日:2024-11-01

    申请号:CN202410887938.3

    申请日:2024-07-03

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于半脆弱音频水印的音频溯源装置及方法,本发明半脆弱水印通过将鲁棒水印与脆弱水印相结合,不仅结合了两者的优势,并消弭了它们在音频保护与音频溯源方面的缺陷。半脆弱水印的鲁棒部分用于音频源头认证,鲁棒水印在受到恶意模型攻击后的不变性为用户提供了一个能标识音频来源的标志,能有效地实现音频的溯源工作。相对地,脆弱水印在受到恶意模型攻击后被完全破坏,在鲁棒水印被正确提取,该音频的源头被确认的前提下,无法被正确提取的脆弱水印可以被用于证明该音频受到恶意模型篡改,进而实现对音频的高效保护。

    一种基于心电特征对齐的脉搏波身份识别方法和装置

    公开(公告)号:CN117874600A

    公开(公告)日:2024-04-12

    申请号:CN202311751190.6

    申请日:2023-12-19

    Abstract: 本发明公开了一种基于心电特征对齐的脉搏波身份识别方法和装置,包括:同步采集用户的脉搏波信号和心电信号作为原始数据集,对原始数据集预处理得到时间对齐的脉搏波信号片段和心电信号片段组成一个对齐样本,结合对齐样本对应的用户身份标签构建训练数据集;利用训练数据集对特征提取器进行训练,在训练过程中使脉搏波特征与心电特征在区分不同人身份的同时进行特征分布对齐;计算每个用户对应所有脉搏波特征的均值作为特征模版来构建特征模版库;利用训练好的特征提取器提取待识别用户脉搏波信号的脉搏波特征,并通过比较脉搏波特征与特征模版库中特征模版的相似度来确定待识别用户的身份。该方法和装置进一步提升了脉搏波身份识别的准确率。

    基于硬件特性的非线性注入攻击检测方法与装置

    公开(公告)号:CN115862670A

    公开(公告)日:2023-03-28

    申请号:CN202211399084.1

    申请日:2022-11-09

    Abstract: 本发明公开了一种基于硬件特性的非线性注入攻击检测方法与装置,其中,检测方法包括以下步骤:(1)对采集的待测音频做语音活动检测,并将待测音频按语音部分进行切分,剔除无语音部分后得到多个语音片段;(2)对于每一个语音片段,同时进行欠采样音频检测与异常白噪声检测;若存在与常规语音部分相似的欠采样音频和/或存在与语音能量高度相关的近似白噪声,则判定该语音片段由非线性注入,并对用户发出警告。本发明中,检测方法可以直接部署于智能设备上,检测装置可以部署于智能设备附近,均可独立完成检测工作,可以为语音助手用户提供便捷、普适、无法规避的非线性注入攻击检测方案。

    一种基于人类语音结构的语音干扰噪声设计方法

    公开(公告)号:CN115841821A

    公开(公告)日:2023-03-24

    申请号:CN202211427811.0

    申请日:2022-11-15

    Abstract: 本发明公开了一种基于人类语音结构的语音干扰噪声设计方法,包括如下步骤:(1)获取大量包含不同说话人、不同说话内容的语音数据,进行声纹信息提取后构建初始语音数据集;(2)对于每个用户,获取少量的用户语音数据,进行声纹信息提取后在初始语音数据集中匹配最为接近的语音数据;(3)对匹配得到的语音数据进行数据增广;(4)利用音素切割算法对增广后的语音数据进行切分,构成元音数据集和辅音数据集;(5)基于元音数据集和辅音数据集构建三段噪声序列,叠加后得到干扰噪声;(6)持续生成随机干扰噪声并播放,持续的干扰噪声注入录音中实现连续干扰。利用本发明,可以使干扰噪声无法从语音中去除,从而避免用户隐私信息的泄漏。

    基于白盒语音对抗样本的隐私保护方法与装置

    公开(公告)号:CN115001621A

    公开(公告)日:2022-09-02

    申请号:CN202210856583.2

    申请日:2022-07-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于白盒语音对抗样本的隐私保护方法与装置,基于非目标白盒对抗样本的针对开源语音识别模型的干扰方法,在真实物理世界有效且符合实际应用场景约束,用以实现语音隐私保护;防御方建立语音数据库,针对开源语音识别模型,生成符合实际应用场景约束的非目标白盒对抗样本扰动;基于不同的初始状态,防御方可以生成大量不同块状扰动,从而形成扰动集合,防御方从扰动集合中随机选择扰动进行播放,使监听方无法获取块状扰动波形进而无法去除扰动;叠加了扰动的语音被麦克风录制后无法被模型正确识别,从而保护用户隐私不被泄露,能够生成对人干扰较小的块状扰动,抵御来自于大规模语音识别的隐私泄露。

    一种隐私保护的深度语音数字水印流式嵌入与检测方法

    公开(公告)号:CN119152862B

    公开(公告)日:2025-04-04

    申请号:CN202411604235.1

    申请日:2024-11-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种隐私保护的深度语音数字水印流式嵌入与检测方法,基于端云协同处理环境,有效隔离语音内容中的用户敏感信息与水印信息,同时实现流式嵌入、区间标注、防水印伪造、信道鲁棒等有益效果,支持语音内容版权声明、伪造样本标识等场景,服务第三方水印嵌入和检测应用,在整个水印嵌入阶段,服务器端仅根据水印信息生成通用水印数据,从而避免了用户隐私信息的泄露风险。在检测环节,接收端用户端采用第三深度神经网络对音频内容进行脱敏处理,使得服务器端仅能通过处理后的脱敏数据来推断水印的存在,隔绝了用户原始语音数据与服务器端的直接接触,显著提升了用户隐私保护水平,提高用户与第三方检测平台之间的信任感。

    基于对抗样本的非侵入自适应说话人匿名系统及方法

    公开(公告)号:CN114822548B

    公开(公告)日:2025-02-14

    申请号:CN202210423544.3

    申请日:2022-04-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于对抗样本的非侵入自适应说话人匿名系统及方法,系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,任意对任意对抗扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动。本发明可以实现任意对任意的说话人身份转换,将原始用户的声纹信息隐藏在一群目标说话人之中以自适应地躲避自动说话人辨认系统的身份检测,通过预训练的条件变分自编码器按需采样目标嵌入码极大释放了实际部署的计算和存储资源需求。

    一种基于语义空间扰动的语音识别模型安全性测评方法

    公开(公告)号:CN116758899B

    公开(公告)日:2023-10-13

    申请号:CN202311008778.2

    申请日:2023-08-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于语义空间扰动的语音识别模型安全性测评方法,包括(1)选择目标指令,将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息;(2)初始化特征扰动为0;(3)将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给语音合成模型的解码器,获得新的梅尔频谱和新的对齐信息;(4)将获得的梅尔频谱进行模糊化,并输入声码器获得音频;(5)将音频输入给待测目标语音识别模型获得识别结果;(6)如果识别结果和目标命令相同则保留音频;(7)计算损失并更新特征扰动;(8)回到步骤(3)直到扰动超过阈值或到达最大迭代次数;(9)检查最终是否通过步骤(6)保留了音频。

Patent Agency Ranking