-
公开(公告)号:CN112289334B
公开(公告)日:2021-04-02
申请号:CN202011588741.8
申请日:2020-12-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L25/03 , G10L25/18 , G10L25/30
Abstract: 本申请涉及语音处理技术领域,公开了一种混响消除方法及装置,用以解决难以消除混响时间较长的语音信号的问题。该方法包括:生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行消除混响操作,得到去混响的声谱图;最后利用去混响的声谱图和相位谱图得到去混响的音频。通过对输入的语音特征图添加注意力,可以使得语音特征图上的语音特征以干净语音信息或者混响语音信息为主导,从而区分干净语音和混响语音。
-
公开(公告)号:CN112185347A
公开(公告)日:2021-01-05
申请号:CN202011033457.4
申请日:2020-09-27
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语种识别方法、装置、服务器及存储介质,该方法包括:获取待检测音频信号中的声学特征;将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。采用本方法,有利于提高语种识别的准确度。
-
公开(公告)号:CN111951789A
公开(公告)日:2020-11-17
申请号:CN202010821094.4
申请日:2020-08-14
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开实施例关于一种语音识别模型的训练、语音识别方法、装置、设备及介质。所述语音识别模型的训练方法包括:获取第一语音数据;将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;获取第二语音识别样本;将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。本公开实施例可以提高训练数据的生成效率,加快语音识别模型的训练速度,提高语音识别模型的语音识别准确率。
-
公开(公告)号:CN110648656A
公开(公告)日:2020-01-03
申请号:CN201910804076.2
申请日:2019-08-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开示出了一种语音端点检测方法、装置、电子设备及存储介质,首先对待检测语音进行分帧处理,得到多个待检测音帧,然后提取各待检测音帧的频率特征、能量特征和过零率特征,将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中,获得各待检测音帧的检测结果,再根据各待检测音帧的检测结果,确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声,能量特征和过零率特征对歌曲和语音有较高的区分度,因此,同时采用频率特征、能量特征和过零率特征,不但可以对纯语音信号准确地进行检测,而且对包含音乐信号的语音也能进行很好地区分,提高了语音端点检测的准确率,相对现有技术具有更强的鲁棒性。
-
公开(公告)号:CN116386659A
公开(公告)日:2023-07-04
申请号:CN202310118537.7
申请日:2023-02-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音乐视频生成方法、装置、电子设备及存储介质,该方法包括:获取目标音乐的歌词序列、和弦信息集和节奏信息集,基于歌词序列确定歌词语义信息序列,歌词语义信息序列中的歌词语义信息的数量和歌词序列中歌词的句数相同,根据歌词语义信息序列和节奏信息集生成初始图片集,利用和弦信息集对初始图片集中的图片进行风格转换,得到目标图片集,基于目标图片集和目标音乐确定目标视频,目标视频包括目标音乐。本申请通过音乐节奏,和弦和文本的结合,得到了更多贴合文本和节奏的图片,且在此基础上,还利用和弦信息对图片做进一步风格转换,得到信息更丰富,和音乐更贴合的视频图片。
-
公开(公告)号:CN113192522B
公开(公告)日:2023-02-21
申请号:CN202110438286.1
申请日:2021-04-22
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L19/02 , G10L19/16 , G10L13/027
Abstract: 本公开提供了音频合成模型生成方法及装置、音频合成方法及装置,涉及音频处理技术领域,以解决相关技术中歌声的音频合成的真实性较差的问题。该方法包括:获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息;基于第一音频数据的特征和第二音频数据的特征进行特征合并,得到目标特征,并基于该目标特征对目标音频的进行类型识别和频谱识别,分别得到目标音频的类型信息和频谱信息,可以与样本音频的类型信息和频谱信息进行比较,确定第一信息和第二信息,根据该第一信息和第二信息生成音频合成模型,从而确保得到的音频合成模型生成的目标音频相对于样本音频的真实度,提高音频合成模型生成合成音频的真实性。
-
公开(公告)号:CN115206305B
公开(公告)日:2023-01-20
申请号:CN202211128827.1
申请日:2022-09-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。
-
公开(公告)号:CN115547308A
公开(公告)日:2022-12-30
申请号:CN202211067740.8
申请日:2022-09-01
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,该方法包括:确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本申请通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。
-
公开(公告)号:CN115484471A
公开(公告)日:2022-12-16
申请号:CN202211122380.7
申请日:2022-09-15
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/2187 , H04N21/442 , H04N21/466 , G06F16/9535 , G06K9/62
Abstract: 本公开是关于一种主播推荐方法及装置,涉及数据处理技术领域,该方法包括:根据每个主播的直播语音内容获取每个主播与目标主播的相似度,目标主播为预定时间周期内直播互动小于预定互动条件的主播;根据每个主播与目标主播的相似度生成每个主播对应的相似目标主播信息表;根据相似目标主播信息表和直播请求用户的历史主播名单,获取与直播请求用户对应的目标主播名单,直播请求用户的历史主播名单中包括与直播请求用户有直播互动的历史主播;从目标主播名单中选取处于开播状态的目标主播呈现给直播请求用户。给请求直播的用户推荐主播为有直播互动的历史主播相似的目标主播,优化了目标主播的匹配推荐,提高了用户观看直播的体验。
-
公开(公告)号:CN114694631A
公开(公告)日:2022-07-01
申请号:CN202011606861.6
申请日:2020-12-28
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L13/027 , G10L25/24 , G10L25/30
Abstract: 本公开关于一种音频合成方法、装置、电子设备及存储介质,该方法包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。本公开将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成音频的目的,有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性,非常适用于像歌唱合成这种对音高准确度有限制的音频合成场景。
-
-
-
-
-
-
-
-
-