-
公开(公告)号:CN113205820B
公开(公告)日:2022-05-13
申请号:CN202110434588.1
申请日:2021-04-22
Applicant: 武汉大学
Abstract: 本发明提供了一种用于声音事件检测的声音编码器的生成方法,包括:对第一训练集中的无标签的预训练音频信号进行失真处理,得到失真训练信号;将失真训练信号输入初始声音编码器,得到第一特征向量;基于预训练音频信号和感知机集合,确定第二特征向量;基于第一特征向量和第二特征向量修改初始声音编码器的参数,得到候选声音编码器;通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练,得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器,再通过有标签的微调音频信号对候选声音编码器进行微调,减少训练过程中对强标签样本的依赖,通过失真处理提升了声音编码器的鲁棒性。
-
公开(公告)号:CN113205820A
公开(公告)日:2021-08-03
申请号:CN202110434588.1
申请日:2021-04-22
Applicant: 武汉大学
Abstract: 本发明提供了一种用于声音事件检测的声音编码器的生成方法,包括:对第一训练集中的无标签的预训练音频信号进行失真处理,得到失真训练信号;将失真训练信号输入初始声音编码器,得到第一特征向量;基于预训练音频信号和感知机集合,确定第二特征向量;基于第一特征向量和第二特征向量修改初始声音编码器的参数,得到候选声音编码器;通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练,得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器,再通过有标签的微调音频信号对候选声音编码器进行微调,减少训练过程中对强标签样本的依赖,通过失真处理提升了声音编码器的鲁棒性。
-
公开(公告)号:CN117854539A
公开(公告)日:2024-04-09
申请号:CN202311867810.2
申请日:2023-12-29
Applicant: 武汉大学
Abstract: 本发明公开了一种基于人类听觉反馈机制的声音活体检测方法及系统,为了保护说话人验证系统免受伪造语音的欺骗,本发明首次将活体说话人在嘈杂环境下会不由自主地改变自己说话模式的Lombard效应引入声音活体检测,并提出了基于Lombard效应的声音活体检测框架Lombard‑VLD。为了改善Lombard‑VLD的鲁棒性和泛化性,本发明设计了基于参考的双输入模式和差分增强网络,以普通语音的特征为参考,对Lombard语音与普通语音之间的差异性特征进行提取和增强。本发明利用Lombard效应所导致的活体说话人发声模式的差异实现了低成本、高准确率、鲁棒性强、泛化性强的声音活体检测,可以方便地应用到各种类型的移动设备中以实现高效的说话人验证系统的反欺骗前置防护上。
-
公开(公告)号:CN117830891A
公开(公告)日:2024-04-05
申请号:CN202311742117.2
申请日:2023-12-15
Applicant: 武汉大学
Abstract: 本发明公开了一种音视频中非友善事件检测方法及系统,首先将待检测的视频序列分别输入音频预训练网络以及视觉预训练网络,分别生成预训练特征;然后将预训练特征分别输入两个自注意力网络以学习模态间的时频域特征,分别生成模态内特征;接着将模态内特征输入交叉注意力网络学习模态间的相关信息,分别生成模态间特征;最后将这模态间特征分别通过一层全连接层,分别计算出两个模态的预测分数;并将预测分数在时域维度上直接相加,得到对于输入视频的预测分数,根据预测分数确定音视频中事件性质。本发明在当前最大的音视频非友善事件检测数据集上达到最高的平均精度,提升了生成音视频特征的泛化性能,实现精确的帧级别音视频事件检测。
-
-
-