基于扩散模型的多模态融合音频生成方法及装置

    公开(公告)号:CN116884391B

    公开(公告)日:2023-12-01

    申请号:CN202311144835.X

    申请日:2023-09-06

    Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置,所述方法包括:响应于接收到用于生成音频的信息,确定与信息的类型对应的、预先训练好的编码器,其中,不同类型的信息分别对应的编码器通过对比联合训练得到;将用于生成音频的信息输入预先训练好的编码器,得到嵌入特征;将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型,生成与嵌入特征对应的音频,在本公开中,不同类型的信息分别对应的编码器通过对比联合训练得到,在有限的数据集中训练出的编码器,能够输出合理的模态融合信息,从而更加准确地生成音频。

    特征提取模型的训练方法和融合发音特征的语音鉴别方法

    公开(公告)号:CN116386602A

    公开(公告)日:2023-07-04

    申请号:CN202310624720.4

    申请日:2023-05-30

    Abstract: 本发明涉及计算机技术领域,具体而言涉及一种特征提取模型的训练方法和融合发音特征的语音鉴别方法,其中特征提取模型的训练方法包括:获取训练样本;根据训练样本对特征提取模型进行训练,生成训练数据;将训练数据分别输入到至少两个解码器中,生成至少两个预测音素序列;根据至少两个预测音素序列和训练样本,确定至少两个损失值;根据至少两个损失值,确定训练损失;根据训练损失,更新特征提取模型的参数。

    语音重建方法、装置、计算机设备和存储介质

    公开(公告)号:CN115798453A

    公开(公告)日:2023-03-14

    申请号:CN202111059801.1

    申请日:2021-09-10

    Abstract: 本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。

    麦克风阵列语音增强的方法、装置、电子设备及存储介质

    公开(公告)号:CN113889137B

    公开(公告)日:2022-04-01

    申请号:CN202111473848.2

    申请日:2021-12-06

    Abstract: 本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质,所述方法包括:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。

    一种细粒度韵律建模的语音生成模型、设备及存储介质

    公开(公告)号:CN114093342A

    公开(公告)日:2022-02-25

    申请号:CN202210078586.8

    申请日:2022-01-24

    Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。

    语音识别方法、系统、电子设备和存储介质

    公开(公告)号:CN113948085A

    公开(公告)日:2022-01-18

    申请号:CN202111577269.2

    申请日:2021-12-22

    Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。

    篡改音频的篡改区域检测方法、装置及存储介质

    公开(公告)号:CN113555037B

    公开(公告)日:2022-01-11

    申请号:CN202111103012.3

    申请日:2021-09-18

    Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。

    一种语音鉴伪与说话人识别联合建模的方法

    公开(公告)号:CN113555023B

    公开(公告)日:2022-01-11

    申请号:CN202111098690.5

    申请日:2021-09-18

    Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定说话人识别网络的目标函数;定义语音鉴伪网路的目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个函数进行联合优化。

    编辑音频的方法、装置、电子设备及存储介质

    公开(公告)号:CN113724686A

    公开(公告)日:2021-11-30

    申请号:CN202111292710.2

    申请日:2021-11-03

    Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。

    基于原始波形的轻量级神经网络生成语音鉴别方法和系统

    公开(公告)号:CN113314148B

    公开(公告)日:2021-11-09

    申请号:CN202110866648.7

    申请日:2021-07-29

    Abstract: 本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。

Patent Agency Ranking