Patent search ap:("中国科学院自动化研究所") AND inv:"周俊佐" Page 1

1.

发明授权
基于扩散模型的多模态融合音频生成方法及装置有权

公开(公告)号：CN116884391B

公开(公告)日：2023-12-01

申请号：CN202311144835.X

申请日：2023-09-06

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 周俊佐 , 陶建华 , 汪涛

IPC: G10L13/08 , G10L13/02 , G10L25/27

Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置，所述方法包括：响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，在本公开中，不同类型的信息分别对应的编码器通过对比联合训练得到，在有限的数据集中训练出的编码器，能够输出合理的模态融合信息，从而更加准确地生成音频。

2.

发明公开
基于扩散模型的多模态融合音频生成方法及装置有权

公开(公告)号：CN116884391A

公开(公告)日：2023-10-13

申请号：CN202311144835.X

申请日：2023-09-06

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 周俊佐 , 陶建华 , 汪涛

IPC: G10L13/08 , G10L13/02 , G10L25/27

Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置，所述方法包括：响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，在本公开中，不同类型的信息分别对应的编码器通过对比联合训练得到，在有限的数据集中训练出的编码器，能够输出合理的模态融合信息，从而更加准确地生成音频。

Patent Agency Ranking