-
公开(公告)号:CN116368497A
公开(公告)日:2023-06-30
申请号:CN202180070787.7
申请日:2021-10-15
Applicant: 杜比实验室特许公司
IPC: G06N3/0464
Abstract: 本发明涉及一种用于通过以下操作预测表示自适应块长度媒体信号的频率内容的变换系数的方法:接收帧并接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定第一块具有第二数量的经量化变换系数;将所述第一块转换成具有第一数量的经量化变换系数的经转换块;调节主神经网络,所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于关于所述经转换块的信息和所述第一块的块长度信息;从所述主神经网络的输出级提供至少一个预测的变换系数。
-
公开(公告)号:CN116324982A
公开(公告)日:2023-06-23
申请号:CN202180069786.0
申请日:2021-10-12
IPC: G10L21/038
Abstract: 一种用于预测媒体信号的频率系数的神经网络系统,所述神经网络系统包括:时间预测部分,所述时间预测部分包括至少一个神经网络,所述至少一个神经网络被训练成在给定一个或若干个先前时间帧的系数的情况下,预测表示当前时间帧的特定频带的第一输出变量集合;以及频率预测部分,所述频率预测部分包括至少一个神经网络,所述至少一个神经网络被训练成在给定与所述当前时间帧中的特定频带毗邻的一个或若干个频带的系数的情况下,预测表示所述特定频带的第二输出变量集合。这种神经网络系统形成了能够捕获媒体信号的时频片中出现的时间依赖性和频率依赖性两者的预测器。
-
公开(公告)号:CN119404249A
公开(公告)日:2025-02-07
申请号:CN202380048431.2
申请日:2023-04-19
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L21/0216
Abstract: 本公开描述了确定至少一个掩模的方法,其用于训练基于深度神经网络(DNN)的基于掩模的音频处理模型。特别地,该方法可以包括获得用于训练的目标音频信号的时间‑频率表示。该方法还可以包括针对目标音频信号来确定逐通道能量归一化(PCEN)度量。该方法也可以进一步包括基于PCEN度量来确定至少一个掩模。
-
公开(公告)号:CN116457797A
公开(公告)日:2023-07-18
申请号:CN202180076578.3
申请日:2021-10-14
Applicant: 杜比实验室特许公司
Abstract: 本文描述了一种使用神经网络或者使用第一神经网络和第二神经网络处理音频信号的方法。进一步描述了一种训练所述神经网络或联合训练一组所述第一神经网络和所述第二神经网络的方法。此外,描述了一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法、以及一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法。还描述了相应的装置和计算机程序产品。
-
公开(公告)号:CN114556470A
公开(公告)日:2022-05-27
申请号:CN202080072793.1
申请日:2020-10-16
IPC: G10L19/00 , G10L19/002
Abstract: 本文描述了一种波形解码方法,该方法包括以下步骤:(a)由波形解码器接收包括源信号的有限比特率表示的比特流;(b)对源信号的有限比特率表示进行波形解码以获得源信号的波形近似;(c)将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布;以及(d)基于概率分布来生成源信号的重建信号。进一步描述了一种用于波形编码的方法和系统以及一种训练生成模型的方法。
-
公开(公告)号:CN111771213A
公开(公告)日:2020-10-13
申请号:CN201980013180.8
申请日:2019-02-14
Applicant: 杜比实验室特许公司
IPC: G06N3/04 , G06N3/08 , G10L13/033
Abstract: 提供用于语音合成的计算机实施方法。语音合成器可经训练以产生经合成音频数据,所述经合成音频数据对应于源说话者根据目标说话者的语音特性说出的话语。可通过带时间戳的音位序列、音调曲线数据及说话者识别数据来训练所述语音合成器。所述语音合成器可包含话音建模神经网络及调节神经网络。
-
公开(公告)号:CN114303186A
公开(公告)日:2022-04-08
申请号:CN202080058992.7
申请日:2020-08-18
Applicant: 杜比实验室特许公司
IPC: G10L13/033 , G10L21/013 , G06K9/62
Abstract: 公开了用于使用真实语音数据为新说话者适配话音克隆合成器的新方法和系统。来自一个或多个目标说话者的话语被参数化,并用于通过如下操作来初始化供话音合成器使用的嵌入向量:对话语数据进行聚类,并使用说话者识别神经网络和/或通过找到最接近于话语数据的存储嵌入矢量来确定数据的质心。
-
公开(公告)号:CN111771213B
公开(公告)日:2021-10-08
申请号:CN201980013180.8
申请日:2019-02-14
Applicant: 杜比实验室特许公司
IPC: G06N3/04 , G06N3/08 , G10L13/033
Abstract: 提供用于语音合成的计算机实施方法。语音合成器可经训练以产生经合成音频数据,所述经合成音频数据对应于源说话者根据目标说话者的语音特性说出的话语。可通过带时间戳的音位序列、音调曲线数据及说话者识别数据来训练所述语音合成器。所述语音合成器可包含话音建模神经网络及调节神经网络。
-
-
-
-
-
-
-