一种VDR语音端点检测方法
    1.
    发明公开

    公开(公告)号:CN116246664A

    公开(公告)日:2023-06-09

    申请号:CN202211635844.4

    申请日:2022-12-19

    Abstract: 本发明公开了一种VDR语音端点检测方法,包括:提取音频信号的特征信息,分别获取上述四个特征信息的一阶差分和二阶差分;将零填充后的特征图输入带有注意力机制的残差网络,提取特征图的复杂抽象特征;计算初步输出值为0和1对应的特征质心;搜索语音端点检测初步输出中持续时间为100ms以下的突变,并将其定义为短时突变,计算突变部分特征质心分别与整个音频文件的0和1两类判断结果的特征质心相似度;通过短时突变部分的特征质心相似度估计结果对VDR语音端点检测输出值进行更新,得到最终VDR语音端点检测的输出值。该方法避免短时端点检测突变,进而准确定位出VDR音频信号中语音位置。

    基于乐音信号频谱图建模的多音音乐歌声旋律提取方法

    公开(公告)号:CN115579018A

    公开(公告)日:2023-01-06

    申请号:CN202211120049.1

    申请日:2022-09-14

    Inventor: 张维维 闫凌宇

    Abstract: 本发明公开了一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法该方法首先求混合音频信号的常Q变换,得到对数频率幅度谱;其次,依据同一乐音声源的基波与各次谐波分量的频点位置关系得到图结构。然后,将常Q变换幅度谱作为图卷积网络输入,将旋律音高转换为独热向量,并将其作为图卷积网络的输出,利用图卷积网络学习复杂的输入输出映射函数,并将图卷积网络的每帧输出节点中最大值所对应的频率作为该帧的初步旋律音高估计结果。最后,采用后处理步骤,构建显著度谱图,微调旋律音高估计。本发明构建对数频率域图结构来实现歌声旋律提取问题,采用数据驱动模式自动学习图卷积网络的参数,达到轻量级参数下的歌声旋律提取目的。

    一种船舶VHF通信音频信号的语音增强方法

    公开(公告)号:CN117409793A

    公开(公告)日:2024-01-16

    申请号:CN202311175450.X

    申请日:2023-09-12

    Abstract: 本发明公开了一种船舶VHF通信音频信号的语音增强方法,包括:将音频信号进行短时傅里叶变换提取其实部和虚部分量;将实部和虚部分量输入至编码器中获得编码输出特征FK,将编码输出特征FK输入到复数Conformer模块中获得全局特征H,将全局特征H进行重塑得到重塑特征H',重塑特征H'和编码输出特征FK相拼接作为解码器的输入信息获得复数比例掩蔽GK,所述复数比例掩蔽GK为VHF通信音频信号的复数比例掩蔽,基于复数比例掩蔽GK获得增强的语音信号复数谱,对增强的语音信号复数谱作短时傅里叶逆变换得到增强的语音信号。本方法可充分利用时域、频域、绝对误差、相对误差、信号、噪声等信息进行权重更新,获得了更优的网络参数和增强效果。

    一种基于循环谱的多通道信息融合钢琴音乐记谱方法

    公开(公告)号:CN116564253A

    公开(公告)日:2023-08-08

    申请号:CN202310570730.4

    申请日:2023-05-19

    Abstract: 本发明一种基于循环谱的多通道信息融合钢琴音乐记谱方法,包括以下步骤:将钢琴信号的循环谱输入到具有不同目标的检测网络中,分别检测钢琴音符的起始点、终点及音符持续段;将钢琴音符起始点、终点及音符持续段三个通道特征进行融合得到增强特征,将增强特征矩阵分别与音符起始点、终点、音符持续段三个特征矩阵作点积运算,得到融合特征矩阵;再利用卷积神经网络提取融合特征矩阵的跨通道信息;利用双向门控循环单元建模跨通道信息的时序关联性,借助判决函数由Sigmoid激活函数输出的音高序列概率值得到钢琴音乐音符序列,达到钢琴音乐记谱的目的。本发明的方法取得了较高的准确率和鲁棒性。

    一种半监督式音乐主旋律提取方法

    公开(公告)号:CN111326164A

    公开(公告)日:2020-06-23

    申请号:CN202010071808.4

    申请日:2020-01-21

    Abstract: 本发明公开了一种半监督式音乐主旋律提取方法,包括:对输入音频信号进行归一化和重采样以及滤波预处理,得到模拟人耳听觉特性的音频信号;对音频信号进行常Q谱变换、获得频率按对数分布的变分辨率频谱信号,并对相邻数帧幅度谱进行聚合获得特征向量,根据特征向量构建极限学习机的输入向量集,依据训练集获得输出向量集;对极限学习机进行参数训练,利用极限学习机网络进行旋律音高粗估计;搜索每帧旋律音高粗估计2/3半音范围内的谱峰,并将该谱峰对应的频率作为该帧旋律音高输出,对旋律音高进行微调。

    基于生成对抗网络和细粒度感知特征提取的歌声合成方法

    公开(公告)号:CN118280324A

    公开(公告)日:2024-07-02

    申请号:CN202410409121.5

    申请日:2024-04-07

    Abstract: 本发明公开了一种基于生成对抗网络和细粒度感知特征提取的歌声合成方法,包括:提取汉语歌声语料库中的歌声信号获得Mel标度的时频谱、基频轮廓信息及一阶前向差分轮廓信息;构建汉语音素表和MIDI映射表,构建训练集和测试集,构建生成对抗网络模型,该模型包括生成器、细粒度感知信息提取网络和判别器,对该生成对抗网络模型进行训练,其中训练过程包括两个阶段,将测试集中的音素序列、MIDI序列、音符持续时间序列通过词嵌入方式转换为嵌入向量并输入至生成器中获得高表现力Mel谱图,对高表现力Mel谱图进行上采样以及降维操作生成高表现力歌声。

    一种半监督式音乐主旋律提取方法

    公开(公告)号:CN111326164B

    公开(公告)日:2023-03-21

    申请号:CN202010071808.4

    申请日:2020-01-21

    Abstract: 本发明公开了一种半监督式音乐主旋律提取方法,包括:对输入音频信号进行归一化和重采样以及滤波预处理,得到模拟人耳听觉特性的音频信号;对音频信号进行常Q谱变换、获得频率按对数分布的变分辨率频谱信号,并对相邻数帧幅度谱进行聚合获得特征向量,根据特征向量构建极限学习机的输入向量集,依据训练集获得输出向量集;对极限学习机进行参数训练,利用极限学习机网络进行旋律音高粗估计;搜索每帧旋律音高粗估计2/3半音范围内的谱峰,并将该谱峰对应的频率作为该帧旋律音高输出,对旋律音高进行微调。

    一种基于图卷积网络的轴承故障诊断方法

    公开(公告)号:CN118094378A

    公开(公告)日:2024-05-28

    申请号:CN202410230311.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种基于图卷积网络的轴承故障诊断方法,包括:采用振动信号传感器采集轴承振动信号;通过对轴承振动信号进行常Q变换,得到按照对数规律分布的振动信号频谱;采用图结构建模轴承振动信号的基波与各次谐波的隐含连接关系,将CQT频谱中的离散频点视为节点,将频率分量之间的谐波关系视为节点之间的边,在并通过邻接矩阵定义所述边;建立图卷积神经网络模型,基于CQT频谱信息对该模型进行训练,生成故障类型的概率映射函数,并对轴承的故障类型进行分类,选取概率值最高的元素所对应的类型作为故障诊断结果。

    基于图卷积网络和粒子滤波的歌声基频估计方法

    公开(公告)号:CN118335107A

    公开(公告)日:2024-07-12

    申请号:CN202410450185.X

    申请日:2024-04-15

    Abstract: 本发明公开了一种基于图卷积网络和粒子滤波的多音音乐歌声基频估计方法,包括:将多音音乐信号进行常Q变换获得频点按照对数规律分布的音乐信号频谱;将常Q变换谱作为输入数据,真实音高频率值作为标签,基于CQT谱图构建训练集和测试集;对CQT谱图中各声源的谐波关系进行建模,对所述图卷积神经网络模型进行训练获得似然函数;利用粒子滤波算法进行歌声基频估计:基于似然函数对图卷积神经网络模型的粒子的权重进行更新,计算权重最大的粒子集合的平均值,将该平均值作为粒子滤波算法最终推断出的音高,采用零频率粒子重验证策略对音高进行修正,不断迭代该预测更新步骤,直至完成对整个音频的歌声基频估计。

Patent Agency Ranking