声纹更新方法、装置、设备和存储介质

    公开(公告)号:CN118800241A

    公开(公告)日:2024-10-18

    申请号:CN202311369389.2

    申请日:2023-10-20

    Abstract: 本申请涉及人工智能领域,提供一种声纹更新方法、装置、设备和存储介质。所述方法包括:对客户近一个周期的若干个音频进行切分,得到多个人声片段;以原注册音所在簇的人声片段时长和达到阈值为终止条件,对人声片段和原注册音进行聚类;对原注册音所在簇的人声片段进行拼接后进行特征提取,得到拼接声纹特征;基于拼接声纹特征与原注册音的比对结果更新原注册音。本申请提供的声纹更新方法根据近期通话录音数据,拼接细粒度的聚类片段作为更新的注册音,持续优化声纹模型,提高声纹认证的准确性和稳定性;聚集注册音相近的人声片段,结合时长阈值作为聚类终止条件,保证说话人特征有效性的同时确保注册音时长,提升了注册音鲁棒性。

    语音合成前端处理方法、装置、设备和存储介质

    公开(公告)号:CN118800212A

    公开(公告)日:2024-10-18

    申请号:CN202311589429.4

    申请日:2023-11-27

    Abstract: 本申请涉及计算机技术领域,提供一种语音合成前端处理方法、装置、设备和存储介质。该方法包括:对待处理文本进行切分,得到至少一个文字,基于预设字典确定每个文字对应的序号;将携带序号的待处理文本输入至韵律预测模型,得到韵律预测模型输出的韵律标签和拼音标签;其中,韵律预测模型是基于携带韵律标签和拼音标签的文本数据集,以及预设字典对应的编码向量训练得到的。本申请通过预训练编码,从预设字典中提取有关发音和韵律的编码信息,并引入模型中,从而提高模型对多音字消歧任务的预测准确率;同时,通过韵律预测模型预测韵律标签和拼音标签,降低了推理复杂度,并提高了前端任务的准确率。

    音频事件检测方法、装置、电子设备、存储介质及产品

    公开(公告)号:CN118430577A

    公开(公告)日:2024-08-02

    申请号:CN202410490203.7

    申请日:2024-04-23

    Abstract: 本发明提供一种音频事件检测方法、装置、电子设备、存储介质及产品,包括:获取音频信号的声谱图;将声谱图输入预先训练好的音频事件检测模型进行处理;音频事件检测模型包括卷积核大小不同的特征提取网络以及与各个特征提取网络对应连接的分类器;通过卷积核大小不同的特征提取网络提取声谱图中不同颗粒度的时频特征,通过分类器对单个颗粒度的时频特征进行分类;根据各个分类器的输出结果,确定音频信号中包含的音频事件。本发明通过采用卷积核大小不同的特征提取网络,对不同粗细颗粒度的频域及时域特征信息进行提取,可以提升提取出的特征信息的复杂度,避免信息同质化严重的问题,有利于提高音频事件检测的准确率。

    一种单通道语音识别方法、设备及存储介质

    公开(公告)号:CN119007709A

    公开(公告)日:2024-11-22

    申请号:CN202411323079.1

    申请日:2024-09-23

    Abstract: 本发明提供一种单通道语音识别方法、设备及存储介质,涉及语音识别技术领域,所述方法包括:获取语音数据;对语音数据进行分割处理,获取多个语音片段数据;对多个语音片段数据进行特征提取处理,获取声学稳健特征信息;将声学稳健特征信息输入至预设的处理模型进行处理,获取人声片段嵌入向量;根据各个人声片段嵌入向量,获取身份标识信息以及对应的语音起止时间信息;根据身份标识信息、语音起止时间信息以及语音片段数据,获取语音识别结果信息。分割处理获取语音片段数据,便于并行处理提高处理效率,处理模型由模型加速处理后获得,简化处理过程提高处理速度并且维持模型性能水平,降低对硬件性能的要求,满足语音识别的准确率和效率要求。

Patent Agency Ranking