-
公开(公告)号:CN119339691A
公开(公告)日:2025-01-21
申请号:CN202411456368.9
申请日:2024-10-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种音乐生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待转换的歌词文本和参考音频;将参考音频由原始音频空间映射到潜在空间,得到第一音频特征;基于作用在潜在空间的扩散模型,对第一音频特征执行多步加噪处理,得到噪声特征;在给定前置条件的情况下,基于扩散模型对噪声特征执行多步去噪处理,得到第二音频特征;其中,前置条件与该歌词文本和参考音频的总时长有关;将第二音频特征由潜在空间映射回原始音频空间,得到用于演唱该歌词文本的音乐作品。本公开简化了音乐生成过程中的用户输入,提高了音乐生成效率。
-
公开(公告)号:CN119049490A
公开(公告)日:2024-11-29
申请号:CN202411269851.6
申请日:2024-09-10
Applicant: 北京达佳互联信息技术有限公司
Inventor: 周汪劲
IPC: G10L21/013 , G10L25/30 , G10L25/03 , G10L25/90
Abstract: 本公开提供了一种音色转换方法、装置、设备及存储介质,属于计算机技术领域。上述方法包括:将第一音频的内容信息、音高信息以及第二音频的声纹信息编码为第一特征向量,第一特征向量表示第一音频的内容特征、音高特征以及第二音频的音色特征;基于第一特征向量的分布信息,将第一特征向量映射到潜在空间,得到潜在特征向量;对潜在特征向量进行解码,得到第三音频,第三音频的音色为目标音色,第三音频的内容与第一音频的内容相同。上述技术方案能够快速准确地将源音频转换为任意音色的目标音频,并在转换过程中保留源音频的音高信息和内容信息,从而在保证音色转换的准确度的同时,保留了音频中的细节信息,提升了目标音频的自然度和流畅度。
-