-
公开(公告)号:CN115064173B
公开(公告)日:2022-12-09
申请号:CN202210891670.1
申请日:2022-07-27
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开涉及一种语音识别方法、装置、电子设备及计算机可读介质,属于人工智能技术领域。该方法包括:获取待识别的语音特征序列,将语音特征序列输入语音识别系统中;通过语音识别系统中的编码器得到语音特征序列对应的语义特征向量序列,其中,语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块中的神经网络参数的权重共享;通过语音识别系统中的解码器对语义特征向量序列进行解码处理,得到语音特征序列对应的文本序列。本公开通过将待识别的语音特征序列输入语音识别系统中,该语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块权重共享,可以减少模型的参数量,节约系统资源。
-
公开(公告)号:CN115146105A
公开(公告)日:2022-10-04
申请号:CN202110342525.3
申请日:2021-03-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/65 , G06F16/632 , G06F16/683 , G06K9/62 , G06F16/68
Abstract: 本申请涉及计算机技术领域,公开了一种歌曲识别方法、装置、电子设备及存储介质,通过采用预先构建的分类模型对待检测音频片段进行特征提取,得到待检测音频片段的特征信息后,将待检测音频片段的特征信息与原唱音频的特征信息进行比较;若待检测音频片段的特征信息与原唱音频的特征信息之间的相似度大于预设相似度,则确定待检测音频片段为翻唱音频,从而可以准确识别音频为原唱音频或翻唱音频。
-
公开(公告)号:CN114974224A
公开(公告)日:2022-08-30
申请号:CN202210767379.3
申请日:2022-06-30
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音意图识别模型的训练方法、语音意图识别方法和装置,训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征;利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。
-
公开(公告)号:CN114339283A
公开(公告)日:2022-04-12
申请号:CN202111616342.2
申请日:2021-12-27
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/2187 , H04N21/435 , H04N21/439 , H04N21/44 , H04N21/466
Abstract: 本公开提供一种媒体资源数据处理方法、装置、设备以及存储介质,涉及计算机技术领域,以至少解决相关技术中无法确定出直播间未来一段时间内的精彩程度的问题。该方法包括:电子设备获取正在播放的目标媒体资源;对当前时段的目标媒体资源进行特征提取,得到特征数据,并根据特征数据,确定出目标媒体资源下个时段的精彩程度。
-
公开(公告)号:CN112967730A
公开(公告)日:2021-06-15
申请号:CN202110125640.5
申请日:2021-01-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0264
Abstract: 本公开是关于一种语音信号的处理方法、装置、电子设备及存储介质,属于语音处理技术领域。方法包括:确定原始语音信号中的多个语音信号帧的第一语音特征;调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合,得到所述每个语音信号帧的非局部语音特征;调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理,得到所述每个语音信号帧的混合语音特征;基于所述多个语音信号帧的混合语音特征获取去噪参数;按照所述去噪参数对所述原始语音信号进行去噪,得到目标语音信号。该方法在处理过程中考虑该语音信号帧的上下文信息,使得到的去噪参数更加准确,从而提高原始语音信号的去噪效果。
-
公开(公告)号:CN112289334A
公开(公告)日:2021-01-29
申请号:CN202011588741.8
申请日:2020-12-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L25/03 , G10L25/18 , G10L25/30
Abstract: 本申请涉及语音处理技术领域,公开了一种混响消除方法及装置,用以解决难以消除混响时间较长的语音信号的问题。该方法包括:生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行消除混响操作,得到去混响的声谱图;最后利用去混响的声谱图和相位谱图得到去混响的音频。通过对输入的语音特征图添加注意力,可以使得语音特征图上的语音特征以干净语音信息或者混响语音信息为主导,从而区分干净语音和混响语音。
-
公开(公告)号:CN111710332A
公开(公告)日:2020-09-25
申请号:CN202010612566.5
申请日:2020-06-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/187 , G10L15/02 , G10L15/04 , G10L15/08
Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音,对待识别语音进行分帧处理,得到多个待检测音帧;提取每个待检测音帧分别对应的语音特征;对每个语音特征进行识别,得到每个待检测音帧的检测结果;根据检测结果,对待识别语音进行切分,得到多个目标语音片段,其中,每个目标语音片段的长度小于或者等于第一阈值,且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内,可以提高目标语音片段的语音识别效率;同时,由于相邻目标语音片段的长度之和大于或等于第二阈值,使得目标语音片段具有一定的上下文信息,从而可以提高语音识别的准确率。
-
公开(公告)号:CN111402865A
公开(公告)日:2020-07-10
申请号:CN202010201114.8
申请日:2020-03-20
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音识别训练数据的生成方法和语音识别模型的训练方法。其中,该生成方法包括:获取客户端上传的初始语音识别数据,其中,初始语音识别数据包括语音数据以及与语音数据对应的文本数据;将语音数据对应的文本数据和预设文本数据进行比对,计算初始语音识别数据的字错误率;筛选字错误率位于预设字错误率区间的初始语音识别数据,确定为弱标签语音识别数据;获取人工标注的语音识别数据;合并弱标签语音识别数据和人工标注的语音识别数据,得到语音识别训练数据。由于弱标签语音识别数据获取方便,可以在短时间内获得大量有效的弱标签语音识别数据,节约了语音识别训练数据的生成时间及减少了语音识别训练数据的生成成本。
-
公开(公告)号:CN111009237A
公开(公告)日:2020-04-14
申请号:CN201911274852.9
申请日:2019-12-12
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音识别方法、装置、电子设备和存储介质。所述方法包括:从当前说话人的待识别语音数据中提取相应的原始语音特征序列;将原始语音特征序列输入至语音识别模型;对原始语音特征序列进行编码,生成对应的语音特征序列;根据语音特征序列和训练得到的包含多个说话人特征的基础特征组,计算得到当前说话人的说话人特征序列;根据当前说话人的说话人特征序列和语音特征序列,生成目标语音特征序列;对目标语音特征序列进行解码,生成语音识别结果。通过选择多个说话人特征作为基础特征组,当前说话人的说话人特征由这些基础特征计算得到,从而不需要使用单独的模型提取当前说话人的说话人特征,简化了当前说话人的说话人特征获取过程。
-
公开(公告)号:CN110047468A
公开(公告)日:2019-07-23
申请号:CN201910418620.X
申请日:2019-05-20
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开是关于一种语音识别方法、装置及存储介质,属于机器学习技术领域。方法包括:获取待识别的音频帧;分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量;对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理,得到融合特征;基于目标声学模型对融合特征进行处理,得到音频帧的语音识别结果,目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量,之后,将二者进行特征融合并将融合后的特征输入声学模型,由于融合后的特征能够对说话人特征和信道特征进行有效表达,提高了语音识别的准确率;另外,声学模型中包括多个空洞卷积层,可以在相同感受野下减少计算量,加快了语音识别速度。
-
-
-
-
-
-
-
-
-