-
公开(公告)号:CN117831543A
公开(公告)日:2024-04-05
申请号:CN202311868654.1
申请日:2023-12-30
Applicant: 东北林业大学
IPC: G10L17/26 , G10L17/02 , G10L17/18 , G10L25/24 , G10L25/45 , G06N3/0464 , G06N3/048 , G06N3/045 , G06N3/082
Abstract: 本发明一种基于EC‑EfficientNet的轻量化鸟鸣识别方法,涉及鸟类识别领域,为解决现有的鸟鸣识别模型往往具有较大参数量,计算精度不适于野外噪声干扰的环境,同时计算成本较高的问题。包括:步骤1:获取鸟鸣音频数据并进行预处理;步骤2:对鸟鸣音频数据进行特征提取,得到Mel倒谱系数;步骤3:基于得到的Mel倒谱系数进行动态差分参数的提取,然后与原Mel倒谱系数融合得到Mel动态融合特征的鸟鸣数据;步骤4:构建EC‑EfficientNet鸟鸣识别模型,模型引入ECA注意力机制,以捕获跨通道的交互信息,同时模型引入CBAM注意力机制,分别从通道和空间两个维度对特征图的各部分赋予不同的权重,以将注意力集中在更为重要的信息上;步骤5:对Mel动态融合特征的鸟鸣数据进行分类。
-
公开(公告)号:CN117786596B
公开(公告)日:2025-03-04
申请号:CN202311829110.4
申请日:2023-12-28
Applicant: 东北林业大学
IPC: G06F18/25 , G06F18/2431 , G06N3/0442 , G06N3/084
Abstract: 本发明提供一种基于文本模态引导注意力融合的多模态情感识别方法、系统及存储介质,涉及情感识别技术领域,为解决现有方法无法有效利用模态信息以及缺乏模态之间交互信息的深层表达的问题。包括:步骤1、分别提取文本情感特征、语音情感特征、视觉情感特征,并按照时间序列进行对齐;步骤2、采用多模态特征融合模块进行特征融合,得到文本和语音的融合特征及文本和视觉的融合特征;所述多模态特征融合模块通过引入多头跨模态注意力机制,使模型关注不同模态数据之间的重要情感信息,同时引入多头自注意力机制,使模型同时关注不同方面的信息;步骤3、建立情感识别模型,利用融合特征以及单模态情感特征进行情感预测,得到情感分类。
-
公开(公告)号:CN117877493B
公开(公告)日:2025-01-24
申请号:CN202311867976.4
申请日:2023-12-29
Applicant: 东北林业大学
Abstract: 本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质,涉及说话人识别技术领域,为解决现方法假设不同说话人之间不存在差异性,调整类边界间隔的方式是固定且一致的,导致无法区分差异性较小的说话人的问题。包括:步骤1、获取说话人音频数据集,将添加音频数据添加标签;步骤2、对音频数据进行预处理,对预处理的音频数据中提取FBank特征作为声学特征;步骤3、构建基于深度学习的说话人识别模型,将说话人音频样本分为正确分类和错误分类,以样本属于某个说话人的概率为先验信息,自适应地调整类边界间隔,构建损失函数对模型进行训练;步骤4、将待测说话人音频数据输入训练后的说话人识别模型,判断是否为同一个人的音频数据。
-
公开(公告)号:CN116129911B
公开(公告)日:2023-11-17
申请号:CN202310089702.0
申请日:2023-02-09
Applicant: 东北林业大学
Abstract: 一种基于概率球面判别分析信道补偿的说话人识别方法,本发明涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为:1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;2、获得说话人的身份矢量i‑vector特征;3、将说话人的身份矢量i‑vector特征分布变换为冯米塞斯VonMises‑Fisher分布;4、得到训练好的CC‑PSDA;5、将待测音频数据输入训练好的CC‑PSDA,判断是否为同一个人的音频数据。本发明用于声纹识别领域。
-
公开(公告)号:CN117786596A
公开(公告)日:2024-03-29
申请号:CN202311829110.4
申请日:2023-12-28
Applicant: 东北林业大学
IPC: G06F18/25 , G06F18/2431 , G06N3/0442 , G06N3/084
Abstract: 本发明提供一种基于文本模态引导注意力融合的多模态情感识别方法、系统及存储介质,涉及情感识别技术领域,为解决现有方法无法有效利用模态信息以及缺乏模态之间交互信息的深层表达的问题。包括:步骤1、分别提取文本情感特征、语音情感特征、视觉情感特征,并按照时间序列进行对齐;步骤2、采用多模态特征融合模块进行特征融合,得到文本和语音的融合特征及文本和视觉的融合特征;所述多模态特征融合模块通过引入多头跨模态注意力机制,使模型关注不同模态数据之间的重要情感信息,同时引入多头自注意力机制,使模型同时关注不同方面的信息;步骤3、建立情感识别模型,利用融合特征以及单模态情感特征进行情感预测,得到情感分类。
-
公开(公告)号:CN117877493A
公开(公告)日:2024-04-12
申请号:CN202311867976.4
申请日:2023-12-29
Applicant: 东北林业大学
Abstract: 本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质,涉及说话人识别技术领域,为解决现方法假设不同说话人之间不存在差异性,调整类边界间隔的方式是固定且一致的,导致无法区分差异性较小的说话人的问题。包括:步骤1、获取说话人音频数据集,将添加音频数据添加标签;步骤2、对音频数据进行预处理,对预处理的音频数据中提取FBank特征作为声学特征;步骤3、构建基于深度学习的说话人识别模型,将说话人音频样本分为正确分类和错误分类,以样本属于某个说话人的概率为先验信息,自适应地调整类边界间隔,构建损失函数对模型进行训练;步骤4、将待测说话人音频数据输入训练后的说话人识别模型,判断是否为同一个人的音频数据。
-
公开(公告)号:CN116129911A
公开(公告)日:2023-05-16
申请号:CN202310089702.0
申请日:2023-02-09
Applicant: 东北林业大学
Abstract: 一种基于概率球面判别分析信道补偿的说话人识别方法,本发明涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为:1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;2、获得说话人的身份矢量i‑vector特征;3、将说话人的身份矢量i‑vector特征分布变换为冯米塞斯VonMises‑Fisher分布;4、得到训练好的CC‑PSDA;5、将待测音频数据输入训练好的CC‑PSDA,判断是否为同一个人的音频数据。本发明用于声纹识别领域。
-
-
-
-
-
-