基于分层聚类的声码器线谱频率参数量化方法

    公开(公告)号:CN109448739B

    公开(公告)日:2019-08-23

    申请号:CN201811524849.3

    申请日:2018-12-13

    Abstract: 本发明公开了一种基于分层聚类的声码器线谱频率参数量化方法,包括:接收语音信号并按帧提取线谱频率参数和清浊音参数;将连续若干帧的线谱频率参数和清浊音参数分别联合,组成超帧线谱频率矢量和超帧清浊音矢量;对当前超帧清浊音矢量进行矢量量化,得到量化索引,其中,当前超帧和上一超帧对应的量化索引联合组成当前转移模式;分别计算该转移模式下的线谱频率参数的直流分量,并训练预测系数,得到该转移模式下当前超帧余量线谱频率参数;根据当前转移模式选择对应量化码本,对余量线谱频率参数进行多级矢量量化,得到量化后的余量线谱频率参数。该方法考虑了线谱频率参数在不同状态下的统计特性差异,能够提高线谱频率参数的量化质量。

    一种用于保护汉语语音私密度的掩蔽信号的生成方法

    公开(公告)号:CN104637485B

    公开(公告)日:2018-05-01

    申请号:CN201510094030.8

    申请日:2015-03-03

    CPC classification number: G10K11/175 G10L19/018

    Abstract: 本发明的用于保护汉语语音私密度的掩蔽信号的生成方包括a).统计语句概率表;b).统计句段概率表;c).统计词组概率表;d).统计汉字概率表;e).统计音节概率表;f).按照确定自然段的语句数、语句中的句段数、句段中的词组数、词组中的汉字数、汉字的音节生成文本信息;g).语音合成。本发明的掩蔽信号的生成方法,充分考虑了会议室声音掩蔽的需求及汉语语音的特点,摒弃了采用稳态噪声等掩蔽信号的传统方式,基于汉语语言中字、词、句的各项统计特性,利用人类发声语音库,生成一种无实际意义的、与正常说话语音极其相似的掩蔽信号。这种掩蔽信号相比传统的掩蔽噪声,大大减弱了听觉上的各种负面影响,提高了声音掩蔽效果。

    面向低速率通信的非侵入式窄带语音质量评估方法及系统

    公开(公告)号:CN119360900B

    公开(公告)日:2025-03-18

    申请号:CN202411918160.4

    申请日:2024-12-25

    Abstract: 本发明属于语音信号处理技术领域,提供了面向低速率通信的非侵入式窄带语音质量评估方法及系统,其技术方案为基于语音数据对构建好的语音质量评估模型进行训练得到训练后的语音质量评估模型;其中,所述语音质量评估模型的构建过程包括:提取语音数据的梅尔频谱特征;基于梅尔频谱特征提取得到语音数据的非对称特征图;将语音数据的非对称特征图分割为多个频段,对各个频段的特征进行增强,得到增强后的特征图;基于增强后的特征图计算每帧语音的评分,基于每帧语音的评分计算整个语音数据的评分;基于训练后的语音质量评估模型对待评估语音数据进行质量评估,无需原始参考信号,有效评估实际通信环境中的语音质量。

    面向低速率通信的非侵入式窄带语音质量评估方法及系统

    公开(公告)号:CN119360900A

    公开(公告)日:2025-01-24

    申请号:CN202411918160.4

    申请日:2024-12-25

    Abstract: 本发明属于语音信号处理技术领域,提供了面向低速率通信的非侵入式窄带语音质量评估方法及系统,其技术方案为基于语音数据对构建好的语音质量评估模型进行训练得到训练后的语音质量评估模型;其中,所述语音质量评估模型的构建过程包括:提取语音数据的梅尔频谱特征;基于梅尔频谱特征提取得到语音数据的非对称特征图;将语音数据的非对称特征图分割为多个频段,对各个频段的特征进行增强,得到增强后的特征图;基于增强后的特征图计算每帧语音的评分,基于每帧语音的评分计算整个语音数据的评分;基于训练后的语音质量评估模型对待评估语音数据进行质量评估,无需原始参考信号,有效评估实际通信环境中的语音质量。

    基于多尺度残差注意力的语音压缩方法及系统

    公开(公告)号:CN118335092B

    公开(公告)日:2024-08-30

    申请号:CN202410748437.7

    申请日:2024-06-12

    Abstract: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。

    基于深度学习和矢量预测的语音压缩方法及系统

    公开(公告)号:CN117423348B

    公开(公告)日:2024-04-02

    申请号:CN202311743425.7

    申请日:2023-12-19

    Abstract: 本公开提供了基于深度学习和矢量预测的语音压缩方法及系统,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。

    一种基于长短期记忆网络的语音端点检测方法及系统

    公开(公告)号:CN112967739B

    公开(公告)日:2022-09-06

    申请号:CN202110217938.9

    申请日:2021-02-26

    Abstract: 本公开提出了一种基于长短期记忆网络的语音端点检测方法及系统,包括:从语音数据中针对每一语音帧提取多分辨率耳蜗图特征,在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;将全面增加权重的数据输入到神经网络(分类器)中,进行语音端点检测并生成预测结果。在编码器中使用一个注意力增强型LSTM网络,不但解决了多头注意力的位置模糊问题,同时利用数个历史时刻的状态信息,增强记忆的长、短期效果,比单一的LSTM更能突出重要的某几帧的效果。

    一种基于长短期记忆网络的语音端点检测方法及系统

    公开(公告)号:CN112967739A

    公开(公告)日:2021-06-15

    申请号:CN202110217938.9

    申请日:2021-02-26

    Abstract: 本公开提出了一种基于长短期记忆网络的语音端点检测方法及系统,包括:从语音数据中针对每一语音帧提取多分辨率耳蜗图特征,在一定范围内选取其数个上下文帧,将这些上下文帧按照时间顺序生成输入数据;将输入数据输入到训练后的注意力增强型长短期记忆网络中,生成局部增强的上下文帧语境信息;将局部增强后的数据输入到多头注意力层,生成全面增加权重的上下文帧信息;将全面增加权重的数据输入到神经网络(分类器)中,进行语音端点检测并生成预测结果。在编码器中使用一个注意力增强型LSTM网络,不但解决了多头注意力的位置模糊问题,同时利用数个历史时刻的状态信息,增强记忆的长、短期效果,比单一的LSTM更能突出重要的某几帧的效果。

    基于变分模态分解和感知哈希的语音端点检测方法

    公开(公告)号:CN109616143B

    公开(公告)日:2019-09-10

    申请号:CN201811526264.5

    申请日:2018-12-13

    Abstract: 本发明公开了一种基于变分模态分解和感知哈希的语音端点检测方法,该方法包括:接收输入语音信号;将输入语音信号进行VMD分解,将VMD分解后的固有模态函数分别进行短时时频分析,得到时频分析矩阵,根据感知哈希算法计算时频分析矩阵的感知哈希值;将输入语音信号VMD分解后时频分析矩阵的感知哈希值与环境噪声VMD分解后时频分析矩阵的感知哈希值进行比较,判断输入语音信号的语音段和噪声段。

Patent Agency Ranking