Patent search ap:("华南理工大学") AND inv:"王星浩" Page 1

1.

发明公开
梅尔频谱时域融合的工业机器设备声音辨认方法、介质及设备审中-实审

公开(公告)号：CN117457027A

公开(公告)日：2024-01-26

申请号：CN202311414746.2

申请日：2023-10-30

Applicant: 华南理工大学

Inventor： 康文雄 , 刘坤 , 黄卓飞 , 陈忠良 , 王星浩

IPC: G10L25/51 , G10L25/18 , G10L25/30

Abstract: 本发明提供了一种梅尔频谱时域融合的工业机器设备声音辨认方法、介质及设备；该方法为：采集工业机器设备声音的音频信号；对音频信号进行短时傅里叶变换与梅尔滤波器组滤波得到梅尔频谱；对音频信号进行一维卷积与多个卷积‑归一化‑激活模块得到时域特征；将梅尔频谱与时域特征拼接得到初级特征；对初级特征进行特征变换得到高级特征嵌入码；输入分类器从而得到对工业机器设备声音的辨认结果。该方法融合梅尔频谱与时域特征，充分利用了工业机器设备声音的全频段信息，可提高工业机器设备声音不同状态下的辨认结果准确率，有利于对工业机器设备的运行状态进行有效诊断。

2.

发明公开
一种基于三重注意力的声纹识别方法、介质及设备审中-实审

公开(公告)号：CN118197320A

公开(公告)日：2024-06-14

申请号：CN202410411438.2

申请日：2024-04-08

Applicant: 华南理工大学

Inventor： 王星浩 , 康文雄 , 邓飞其 , 陈忠良

IPC: G10L17/02 , G10L17/18

Abstract: 本发明提供了一种基于三重注意力的声纹识别方法、介质及设备；其中方法为：获取待识别的语音数据；提取语音数据的声学特征；采用基于三重注意力的提取网络对声学特征进行若干次三重注意力加权，得到语句级特征；三重注意力加权是指：提取通道维度与时间维度的交互注意力、通道维度与频率维度的交互注意力权重，以及时间维度与频率维度的交互注意力权重；采用三种交互注意力权重进行加权；将提取网络得到的语句级特征与数据库中已注册语音特征进行相似度比较得到识别结果。该方法充分提取了通道与时间、通道与频率、时间与频率的跨维度交互信息，捕获通道与时间、通道与频率、时间与频率之间的的相互依赖信息，可有效提高声纹识别的准确率。

Patent Agency Ranking