-
公开(公告)号:CN116129881A
公开(公告)日:2023-05-16
申请号:CN202310003040.0
申请日:2023-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。
-
公开(公告)号:CN115910062A
公开(公告)日:2023-04-04
申请号:CN202211493907.7
申请日:2022-11-25
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频识别方法、装置、设备及存储介质,涉及计算机技术领域,用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。该音频识别方法包括:获取待识别音频数据;将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;目标识别模型包括多个目标音频识别模块;目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理;输入音频数据为基于待识别音频数据的音频特征数据;目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。
-
公开(公告)号:CN115331694A
公开(公告)日:2022-11-11
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN115171629A
公开(公告)日:2022-10-11
申请号:CN202110285915.1
申请日:2021-03-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音乐生成方法、装置、电子设备及存储介质,该方法包括:获取目标语音和背景音乐;从所述目标语音中切分出每个词语对应的语音片段,得到词语语音片段序列;确定所述背景音乐中位于纯音乐段落的强节拍点,相邻所述强节拍节点构成强节拍区间;建立所述词语语音片段序列中词语语音片段与所述强节拍区间的对应关系;根据所述对应关系融合所述词语语音片段序列与所述背景音乐,得到目标说唱音乐。本公开提高了说唱音乐生成的准确性和生成效率。
-
公开(公告)号:CN115114474A
公开(公告)日:2022-09-27
申请号:CN202110286728.5
申请日:2021-03-17
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/683 , G06F40/211
Abstract: 本公开提供一种关于一种歌词生成模型训练方法、歌词生成方法、装置及存储介质,涉及人工智能领域。包括:获取第一歌词文本,第一歌词文本至少包括一首或多首歌曲的歌词、歌曲中每一句歌词的字数信息;将第一歌词文本转换为训练字符;根据训练字符,对预设网络模型进行训练,得到歌词生成模型;歌词生成模型用于根据输入的待生成歌词的约束条件,生成与约束条件对应的待生成歌词,约束条件至少包括:输入文本以及待生成歌词中每句歌词的字数,待生成歌词包括输入文本,歌词生成模型具备识别训练字符的能力。基于此,歌词生成模型训练装置可以通过在训练歌词文本中增加字数信息,提高歌词生成模型生成符合字数要求的歌词的能力。
-
公开(公告)号:CN111009237B
公开(公告)日:2022-07-01
申请号:CN201911274852.9
申请日:2019-12-12
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音识别方法、装置、电子设备及存储介质。所述方法包括:从当前说话人的待识别语音数据中提取相应的原始语音特征序列;将原始语音特征序列输入至语音识别模型;对原始语音特征序列进行编码,生成对应的语音特征序列;根据语音特征序列和训练得到的包含多个说话人特征的基础特征组,计算得到当前说话人的说话人特征序列;根据当前说话人的说话人特征序列和语音特征序列,生成目标语音特征序列;对目标语音特征序列进行解码,生成语音识别结果。通过选择多个说话人特征作为基础特征组,当前说话人的说话人特征由这些基础特征计算得到,从而不需要使用单独的模型提取当前说话人的说话人特征,简化了当前说话人的说话人特征获取过程。
-
公开(公告)号:CN114154003A
公开(公告)日:2022-03-08
申请号:CN202111333053.1
申请日:2021-11-11
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/58
Abstract: 本公开提出一种图片的获取方法、装置、电子设备及存储介质,涉及计算机技术领域。其中,方法包括:获取待上传的音频数据对应的第一音频特征;根据所述第一音频特征与参考音频对应的第二音频特征间的第一匹配度,确定目标参考音频;根据预设的参考音频与图片的对应关系,确定所述目标参考音频对应的第一参考图片;在图片推荐界面,展示所述第一参考图片。由此,可以根据音频数据与参考音频间的匹配度,先确定出匹配的目标参考音频,之后再根据参考音频与图片的对应关系,即可确定出对应的第一参考图片,不仅考虑到了音频间的匹配度,而且也结合了音频与图片间的对应关系,从而提高了参考图片获取的准确性。
-
公开(公告)号:CN110047468B
公开(公告)日:2022-01-25
申请号:CN201910418620.X
申请日:2019-05-20
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开是关于一种语音识别方法、装置及存储介质,属于机器学习技术领域。方法包括:获取待识别的音频帧;分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量;对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理,得到融合特征;基于目标声学模型对融合特征进行处理,得到音频帧的语音识别结果,目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量,之后,将二者进行特征融合并将融合后的特征输入声学模型,由于融合后的特征能够对说话人特征和信道特征进行有效表达,提高了语音识别的准确率;另外,声学模型中包括多个空洞卷积层,可以在相同感受野下减少计算量,加快了语音识别速度。
-
公开(公告)号:CN113744729A
公开(公告)日:2021-12-03
申请号:CN202111095442.5
申请日:2021-09-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供一种语音识别模型生成方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以得到更优的语音识别模型。该方法包括:获取语音样本数据;构建第一语音识别超网络,第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,搜索特征包括分支个数、网络层维度和通道选择维度;搜索特征包括分支个数、网络层维度和通道选择维度;基于语音样本和语音样本标签,对第一语音识别超网络执行训练操作,得到第二语音识别超网络;语音样本标签作为语音样本对应的期望识别值;对第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;对目标语音识别子网络进行重训练,得到语音识别模型。
-
公开(公告)号:CN111951789B
公开(公告)日:2021-08-17
申请号:CN202010821094.4
申请日:2020-08-14
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开实施例关于一种语音识别模型的训练、语音识别方法、装置、设备及介质。所述语音识别模型的训练方法包括:获取第一语音数据;将所述第一语音数据输入至第一语音识别模型中,获取所述语音识别模型输出的至少一个第一文本数据;按照预设语法规则,从各所述第一文本数据中识别出第二文本数据,并根据所述第一语音数据,生成第一语音识别样本;获取第二语音识别样本;将所述第一语音识别样本和所述第二语音识别样本输入至所述第一语音识别模型中,对所述第一语音识别模型继续进行训练,生成第二语音识别模型。本公开实施例可以提高训练数据的生成效率,加快语音识别模型的训练速度,提高语音识别模型的语音识别准确率。
-
-
-
-
-
-
-
-
-