-
公开(公告)号:CN117830891A
公开(公告)日:2024-04-05
申请号:CN202311742117.2
申请日:2023-12-15
Applicant: 武汉大学
Abstract: 本发明公开了一种音视频中非友善事件检测方法及系统,首先将待检测的视频序列分别输入音频预训练网络以及视觉预训练网络,分别生成预训练特征;然后将预训练特征分别输入两个自注意力网络以学习模态间的时频域特征,分别生成模态内特征;接着将模态内特征输入交叉注意力网络学习模态间的相关信息,分别生成模态间特征;最后将这模态间特征分别通过一层全连接层,分别计算出两个模态的预测分数;并将预测分数在时域维度上直接相加,得到对于输入视频的预测分数,根据预测分数确定音视频中事件性质。本发明在当前最大的音视频非友善事件检测数据集上达到最高的平均精度,提升了生成音视频特征的泛化性能,实现精确的帧级别音视频事件检测。
-
公开(公告)号:CN117672264A
公开(公告)日:2024-03-08
申请号:CN202311535961.8
申请日:2023-11-17
Applicant: 武汉大学
IPC: G10L25/51 , G06F18/213 , G06F40/30 , G06F18/22 , G06F18/2415 , G10L25/27
Abstract: 本发明提供基于语义相似度对齐的声音事件检测方法、系统及存储介质,能够将one‑hot标签无法表示的语义关联注入模型,提升模型的识别和检测性能。方法包括:步骤1,构建数据集中的各标签的文本描述;对于有标签声音事件数据集中的每个音频,均按照Desc或Concat方式构建声音事件类别的文本描述;步骤2,使用两个预训练的编码器和投影层来连接音频片段和文本描述,提取音频和文本特征,并分别通过两个独立的线性投影层,将音频和文本特征投影到同一个特征空间;步骤3,计算损失、训练模型,模型整体优化目标是最小化分类损失,同时最大化投影音频特征与相应投影文本特征之间的平均余弦相似度;用训练好的模型进行检测。
-
公开(公告)号:CN116778919A
公开(公告)日:2023-09-19
申请号:CN202310672434.5
申请日:2023-06-07
Applicant: 武汉大学
Abstract: 本发明提供一种基于分组特征校准的声音事件检测方法及系统,包括:获取待检测声音事件的音频特征数据;将音频特征数据输入时频学习网络,通过卷积神经网络获取时频谱图,基于多个维度对时频谱图的中间表征进行分组特征学习得到分组强化特征,对分组强化特征进行任务感知激活得到自适应特征;将自适应特征输入上下文建模网络,获取音频信号时域相关性特征,对音频信号时域相关性特征进行分类,得到声音事件类别检测结果。本发明根据声音事件检测任务中不同类型音频的时频特性引入分组特征校准模块,增强了声音事件检测网络对各类音频的特征表示能力,参数量小且通用性强,以较小的计算代价引入现有的主流声音事件检测模型中并提升其性能。
-
公开(公告)号:CN113205820B
公开(公告)日:2022-05-13
申请号:CN202110434588.1
申请日:2021-04-22
Applicant: 武汉大学
Abstract: 本发明提供了一种用于声音事件检测的声音编码器的生成方法,包括:对第一训练集中的无标签的预训练音频信号进行失真处理,得到失真训练信号;将失真训练信号输入初始声音编码器,得到第一特征向量;基于预训练音频信号和感知机集合,确定第二特征向量;基于第一特征向量和第二特征向量修改初始声音编码器的参数,得到候选声音编码器;通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练,得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器,再通过有标签的微调音频信号对候选声音编码器进行微调,减少训练过程中对强标签样本的依赖,通过失真处理提升了声音编码器的鲁棒性。
-
公开(公告)号:CN113205820A
公开(公告)日:2021-08-03
申请号:CN202110434588.1
申请日:2021-04-22
Applicant: 武汉大学
Abstract: 本发明提供了一种用于声音事件检测的声音编码器的生成方法,包括:对第一训练集中的无标签的预训练音频信号进行失真处理,得到失真训练信号;将失真训练信号输入初始声音编码器,得到第一特征向量;基于预训练音频信号和感知机集合,确定第二特征向量;基于第一特征向量和第二特征向量修改初始声音编码器的参数,得到候选声音编码器;通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练,得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器,再通过有标签的微调音频信号对候选声音编码器进行微调,减少训练过程中对强标签样本的依赖,通过失真处理提升了声音编码器的鲁棒性。
-
公开(公告)号:CN117219085A
公开(公告)日:2023-12-12
申请号:CN202311208362.5
申请日:2023-09-18
Applicant: 武汉大学
IPC: G10L17/02 , G10L17/06 , G10L21/0232
Abstract: 本发明公开了一种基于F‑ratio自适应掩蔽的声纹识别系统对抗防御方法,本发明首先对输入语音进行特征提取,获得幅度谱图;对幅度谱图进行去噪得到去噪幅度谱图;使用F‑ratio统计去噪幅度谱图中用以区分说话人的高相关频带集合和低相关频带集合;然后分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值;对幅度谱图进行遮掩得到重构幅度谱图;将重构幅度谱图利用librosa.griffinlim变换,得到对应波形信号作为重构语音;最后使用批量干净样本进行语音重构,使用重构语音进行SRS微调训练,以保证SRS的分类性能。本发明均表现出明显的防御性优势,平均防御能力展现出本方案对于不同攻击的防御通用性,此外,因为本发明不涉及额外的数据和训练,所以本方案具备低成本的性质。
-
公开(公告)号:CN116013361A
公开(公告)日:2023-04-25
申请号:CN202211573883.6
申请日:2022-12-08
Applicant: 武汉大学
IPC: G10L25/51 , G06F18/24 , G06F18/213 , G06F18/214 , G06F18/241 , G10L25/18
Abstract: 本发明公开了一种基于注意力机制的声音事件样本混合方法及装置,在音频分类任务上,样本混合是一种有效的数据增强方法。原有的样本混合方案直接混合两个随机样本的波形,这不仅忽略了声音事件的时间分布,而且还可能干扰另一个样本中的原始声音事件。本文提出了基于注意力机制的样本混合方案,它只选择那些含有声音事件的片段进行混合,而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图,过滤出频谱图上对分类有用的部分,然后选择区域进行混合。该方案能够显著提升音频分类的准确率(+1.9mAP),尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8%,同时保持对长事件的分类准确率。
-
-
-
-
-
-