音频监控中基于深度随机森林的声音事件分类方法

    公开(公告)号:CN110808070B

    公开(公告)日:2022-05-06

    申请号:CN201911112306.5

    申请日:2019-11-14

    Applicant: 福州大学

    Abstract: 本发明涉及一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。

    音频监控中基于深度随机森林的声音事件分类方法

    公开(公告)号:CN110808070A

    公开(公告)日:2020-02-18

    申请号:CN201911112306.5

    申请日:2019-11-14

    Applicant: 福州大学

    Abstract: 本发明涉及一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。

    乐器音色迁移下的人声音色相似性度量方法

    公开(公告)号:CN108417228A

    公开(公告)日:2018-08-17

    申请号:CN201810105191.6

    申请日:2018-02-02

    Applicant: 福州大学

    Abstract: 本发明涉及一种乐器音色迁移下的人声音色相似性度量方法。该方法首先计算数据量充分且均衡的乐器数据集音频的对数梅尔频谱特征,得到特征矩阵,用乐器数据训练深度卷积神经网络模型,得到训练好的深度卷积神经网络模型;接着对数据量不充分、不均衡的人声音频数据集,用同样的方法计算得到它的对数梅尔频谱特征,再采用基于迁移学习的微调方法对已训练好的深度卷积神经网络模型进行微调,得到人声音色的表征模型,模型的输出则为人声的音色向量,最后通过计算音色向量之间的余弦相似度,可实现人声音色的相似性度量。

    一种基于演唱者声音特质的歌曲推荐方法

    公开(公告)号:CN106991163A

    公开(公告)日:2017-07-28

    申请号:CN201710206783.2

    申请日:2017-03-31

    Applicant: 福州大学

    CPC classification number: G06F16/637 G06F16/683 G10L25/48

    Abstract: 本发明涉及一种基于演唱者声音特质的歌曲推荐方法,该方法利用歌曲简谱和歌手清唱带等信息,建立歌曲特征文件库,提取歌曲的演唱音域和构建出人声音色嵌入空间,并得到原唱歌手的人声音色表征。对演唱者的清唱录音文件提取演唱音域及人声音色表征,刻画演唱者的声音特质;计算歌曲的音级分布情况与演唱者在各个音级的演唱能力评估值,由此计算出用户演唱音域与歌曲音域要求的匹配度;将演唱者的声音片段嵌入到音色嵌入空间中,分别计算与嵌入空间中各歌手的音色相似度。本发明能够综合考虑演唱者的音域匹配度和音色相似度,计算每首歌曲对于该用户的推荐度。

    一种音频帧序列到事件标签序列的声音事件标注方法

    公开(公告)号:CN110827804B

    公开(公告)日:2022-06-14

    申请号:CN201911111989.2

    申请日:2019-11-14

    Applicant: 福州大学

    Abstract: 本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。

    一种基于序列分类的特定声音事件检索与定位的方法

    公开(公告)号:CN111161715A

    公开(公告)日:2020-05-15

    申请号:CN201911363277.X

    申请日:2019-12-25

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于序列分类的特定声音事件检索与定位的方法,通过利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征,再通过多任务学习联合回归损失和分类损失来训练特定声音事件检索网络。给定音频文件进行特定音频事件检索和定位时,首先,将待测声音片段的梅尔特征能量输入到声音检索模型中,得到每个声音片段的特定声音事件的检索结果,再通过后处理定位特定声音事件出现的起止音频帧,最后通过平滑处理得到音频文件完整的特定声音事件检索和定位信息。

    一种基于序列分类的特定声音事件检索与定位的方法

    公开(公告)号:CN111161715B

    公开(公告)日:2022-06-14

    申请号:CN201911363277.X

    申请日:2019-12-25

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于序列分类的特定声音事件检索与定位的方法,通过利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征,再通过多任务学习联合回归损失和分类损失来训练特定声音事件检索网络。给定音频文件进行特定音频事件检索和定位时,首先,将待测声音片段的梅尔特征能量输入到声音检索模型中,得到每个声音片段的特定声音事件的检索结果,再通过后处理定位特定声音事件出现的起止音频帧,最后通过平滑处理得到音频文件完整的特定声音事件检索和定位信息。

    一种面向重叠声音事件检测的音频高层语义特征提取方法及系统

    公开(公告)号:CN110931046A

    公开(公告)日:2020-03-27

    申请号:CN201911201939.3

    申请日:2019-11-29

    Applicant: 福州大学

    Abstract: 本发明涉及一种面向重叠声音事件检测的音频高层语义特征提取方法及系统,首先构建音频文件训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;然后构建CBG深度卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;最后对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出。本发明将传统音频物理特征变换为高层语义特征,可以提高后续检测的精度。

    一种音频帧序列到事件标签序列的声音事件标注方法

    公开(公告)号:CN110827804A

    公开(公告)日:2020-02-21

    申请号:CN201911111989.2

    申请日:2019-11-14

    Applicant: 福州大学

    Abstract: 本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。

    乐器音色迁移下的人声音色相似性度量方法

    公开(公告)号:CN108417228B

    公开(公告)日:2021-03-30

    申请号:CN201810105191.6

    申请日:2018-02-02

    Applicant: 福州大学

    Abstract: 本发明涉及一种乐器音色迁移下的人声音色相似性度量方法。该方法首先计算数据量充分且均衡的乐器数据集音频的对数梅尔频谱特征,得到特征矩阵,用乐器数据训练深度卷积神经网络模型,得到训练好的深度卷积神经网络模型;接着对数据量不充分、不均衡的人声音频数据集,用同样的方法计算得到它的对数梅尔频谱特征,再采用基于迁移学习的微调方法对已训练好的深度卷积神经网络模型进行微调,得到人声音色的表征模型,模型的输出则为人声的音色向量,最后通过计算音色向量之间的余弦相似度,可实现人声音色的相似性度量。

Patent Agency Ranking