一种基于半监督模型的声音检测方法

    公开(公告)号:CN117558291A

    公开(公告)日:2024-02-13

    申请号:CN202311312313.6

    申请日:2023-10-11

    Abstract: 本发明公开了一种基于半监督模型的声音检测方法,通过针对无标签音频数据的对数梅尔频谱对进行弱增强策略、强增强策略,分别得到弱增强、强增强对数梅尔频谱对。本发明以强标签、弱标签、无标签对数梅尔频谱、弱增强、强增强对数梅尔频谱对为输入、音频数据的类别和时间为输出,构建和训练教师模型和学生模型,并且在训练学生模型过程中,针对弱增强、强增强对数梅尔频谱图的预测值进行相似损失计算,针对强标签、弱标签对数梅尔频谱图的预测值进行分类损失计算;同时计算教师模型和学生模型的一致性损失,最终得到半监督声音检测模型。本发明优化改进了现有的平均教师模型,提出了相似损失的概念;通过充分利用无标签数据提升了检测的准确度。

    一种动态图链接生成方法
    22.
    发明授权

    公开(公告)号:CN116306780B

    公开(公告)日:2023-08-15

    申请号:CN202310525595.1

    申请日:2023-05-11

    Abstract: 本发明公开了一种动态图链接生成方法,所述方法包括:获取不同时刻的快照图;将所述不同时刻的快照图,输入至预设的生成对抗图胶囊网络模型中,得到下一时刻快照图之间的链接;其中,所述生成对抗图胶囊网络模型基于生成对抗网络进行双重训练得到的,所述生成对抗图胶囊网络模型采用样本集进行训练,所述样本集是基于每个动态离散快照图对应生成的拓扑结构得到的;所述生成对抗网络包括生成器和鉴别器,所述鉴别器用于对真实数据和生成的数据进行鉴别判断;所述生成器用于生成下一时刻快照图的拓扑结构。

    基于PANNs结构的口吃类型检测方法
    24.
    发明公开

    公开(公告)号:CN118969014A

    公开(公告)日:2024-11-15

    申请号:CN202411194757.9

    申请日:2024-08-29

    Inventor: 谭涛 丁卓 邵曦

    Abstract: 本发明涉及医疗检测技术领域,具体涉及一种基于PANNs结构的口吃类型检测方法,包括:获取原始训练数据并进行各种变换处理,生成具有多样性的训练数据,以增加训练数据的多样性,将具有多样性的训练数据置入PANNs‑CNN14模型中对PANNs‑CNN14模型进行预训练,基于预训练好的PANNs‑CNN14模型来提取声音的深层特征,精准的识别和分类不同的口吃类型,将PANNs‑CNN14模型输出进行解码转换为二进制标签,获得具体的口吃事件标签,完成对口吃事件的分类和识别,达到了不依赖于特定语言的语音识别特性,可以适应各种语言的音频数据,提高了系统的通用性和适应性的效果。

    一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法

    公开(公告)号:CN118707439A

    公开(公告)日:2024-09-27

    申请号:CN202410837353.0

    申请日:2024-06-26

    Abstract: 本发明提出了一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法,针对麦克风阵列拓展孔径产生相位模糊的问题,在用窄带MUSIC算法估计宽带信号声源DOA的任务上给出了基于聚类的解模糊方案。以开始出现相位模糊的频率点为界限,将整个频带分为两部分。对于无相位模糊的部分频率点,直接用窄带MUSIC算法估计信号的MUSIC谱,读取峰值坐标为当前频率点信号DOA估计结果;并用这部分频带信号的估计结果初始化聚类中心,引导存在相位模糊的部分频率点,对存在伪峰的谱函数进行修正,从修正后的谱函数上读取峰值坐标为当前频率点信号估计结果。从而实现全频带的无模糊DOA估计。该方法使得双麦克风阵列能够藉由拓展阵列孔径获得更准确的DOA估计结果。

    一种基于自适应步长LMS滤波器的广义旁瓣消除方法

    公开(公告)号:CN118571244A

    公开(公告)日:2024-08-30

    申请号:CN202410615296.1

    申请日:2024-05-17

    Abstract: 本发明提出了一种基于自适应步长最小均方误差滤波器的广义旁瓣消除方法,根据基于循环插值的双通道互相关算法和宽带MUSIC算法,利用麦克风阵列从音频中收集目标语音的波达方向信息,根据波达方向信息补偿麦克风阵列各通道音频间的时延,并将时延补偿后的音频在时频域上表示,作为波束形成部分的输入,分别计算时延补偿后的音频通过固定波束形成滤波器和阻塞矩阵后得到的固定波束形成结果和多路参考噪声信号;估计音频中噪声的功率谱密度。最后计算固定波束形成器输出和噪声抑制后的参考噪声的残差,作为当前帧算法的输出;再将该输出反馈给噪声抑制滤波器,计算下一帧噪声抑制滤波器的权值,从而消除残留的旁瓣噪声,达到降噪的目的。

    基于时频谱遮蔽的待修复语音的判别与修复方法、系统

    公开(公告)号:CN117437937A

    公开(公告)日:2024-01-23

    申请号:CN202311527659.8

    申请日:2023-11-16

    Abstract: 本发明公开了基于时频谱遮蔽的待修复语音的判别与修复方法、系统,该方法包括对原始语音进行处理,并应用掩码分别形成初始训练集的对照数据和性能测试数据集;提取原始语音和对照数据的频谱特征,将时域信号转化为频域信息,分别保存为原始数据集和对照数据集并打标签;构建基于频谱信息的频谱自注意力神经网络模型提取浅层和深层频谱信息特征,通过跳跃链接层链接特征,添加全连接神经网络,得到语音被掩码概率值;构建基于频谱自注意力的卷积神经网络模型,根据损失值进行反向传播,调整模型参数,判断该语音片段是否需要修复;将待修复和已修复音频,忽略时间标记后储存。本发明提高了在固定场景下的判别效率,实现了高精度的判别目标。

    一种铜制或木制乐器的多模态转谱方法及系统

    公开(公告)号:CN113257210B

    公开(公告)日:2023-10-24

    申请号:CN202110613485.1

    申请日:2021-06-02

    Abstract: 本发明公开了一种铜制或木制乐器的多模态转谱方法及系统,包括:采集演奏现场演奏的现场图像信息、音频信息与气流强度信息;根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据,以及利用RESNET网络提取所述音频信息的音高数据;将两部分音高数据通过集成学习策略进行多模态融合,自动优化其协同度,输出MIDI文件,实现多模态转谱。本发明可以克服视觉转谱与听觉转谱各自的不足,同时又结合它们的优点,在降低计算量的同时,提升了转谱的准确率与效率。

    一种基于Transformer进行音视频联合场景分类方法及系统

    公开(公告)号:CN116778289A

    公开(公告)日:2023-09-19

    申请号:CN202310726446.1

    申请日:2023-06-19

    Abstract: 本发明属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。

    基于非结构化知识嵌入的视频常识文本生成方法

    公开(公告)号:CN115393773A

    公开(公告)日:2022-11-25

    申请号:CN202211096181.3

    申请日:2022-09-08

    Abstract: 本发明公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。

Patent Agency Ranking