个性化说话者验证系统和方法

    公开(公告)号:CN111418009B

    公开(公告)日:2023-09-05

    申请号:CN202080000759.3

    申请日:2020-01-09

    Abstract: 提供了用于个性化说话者验证的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法之一包括:获得说话者的第一语音数据作为正样本,以及与说话者不同的实体的第二语音数据作为负样本;将正样本和负样本馈送到第一模型以确定人声特性,从而相应地输出说话者的正人声特性和负人声特性;至少基于正人声特性和负人声特性获得梯度;将梯度馈送到第一模型,以更新第一模型的一个或多个参数,从而获得用于个性化说话者验证的第二模型。

    语音识别处理方法及装置
    22.
    发明公开

    公开(公告)号:CN116543759A

    公开(公告)日:2023-08-04

    申请号:CN202310713922.6

    申请日:2023-06-15

    Abstract: 本说明书实施例提供了语音识别处理方法及装置,其中,一种语音识别处理方法包括:将待识别语音的语音帧进行语音识别获得的多个候选字符,以及对待识别语音中已识别语音帧的识别输出的历史字符序构成的字符组合与关键字符序列进行匹配,根据匹配结果更新各候选字符的识别概率,并计算各候字符与历史字符序列构成的候选字符序列的识别指标,根据各候选字符序列的识别指标筛选出待识别语音中已识别语音帧的目标字符序列。

    韵律预测模型的训练方法和装置、人机交互方法和装置

    公开(公告)号:CN116189663A

    公开(公告)日:2023-05-30

    申请号:CN202310202425.X

    申请日:2023-02-23

    Inventor: 顾艳梅 王志铭

    Abstract: 本说明书实施例提供了韵律预测模型的训练方法和装置、人机交互方法和装置。该训练方法包括:得到目标业务场景中的文本语料;对文本语料进行归一化处理;得到样本语料;其中,该样本语料是对归一化处理后的文本语料打上韵律标签后得到的;所述韵律标签用于指示停顿时长;利用训练完毕的标点符号预测模型的模型结构及参数对韵律预测模型的模型结构及参数进行初始化;将带有韵律标签的样本语料输入初始化后的韵律预测模型,以对韵律预测模型进行训练。本说明书实施例的方法能够使得机器设备播放的语音更加自然,更加便于用户理解。

    用于说话人识别的方法及神经网络模型

    公开(公告)号:CN111145760B

    公开(公告)日:2020-06-30

    申请号:CN202010256078.5

    申请日:2020-04-02

    Abstract: 本说明书实施例提供一种用于说话人识别的方法和神经网络模型。根据该方法,首先获取说话人音频片段的频谱特征;然后对频谱特征进行编码,得到帧级别的N个编码向量构成的向量序列。接着,对该向量序列分别施加K种池化处理,得到对应的K个子嵌入向量;其中,任意的第i池化处理包括,对于N个编码向量中任意的第一编码向量,基于第i池化处理对应的第i注意力算法,确定该第一编码向量的注意力系数,并以各个编码向量各自的注意力系数为权重因子,对各个编码向量求和。然后,基于所述K个子嵌入向量,确定总嵌入向量;并基于所述总嵌入向量,进行说话人识别。

    用于说话人识别的方法及神经网络模型

    公开(公告)号:CN111145760A

    公开(公告)日:2020-05-12

    申请号:CN202010256078.5

    申请日:2020-04-02

    Abstract: 本说明书实施例提供一种用于说话人识别的方法和神经网络模型。根据该方法,首先获取说话人音频片段的频谱特征;然后对频谱特征进行编码,得到帧级别的N个编码向量构成的向量序列。接着,对该向量序列分别施加K种池化处理,得到对应的K个子嵌入向量;其中,任意的第i池化处理包括,对于N个编码向量中任意的第一编码向量,基于第i池化处理对应的第i注意力算法,确定该第一编码向量的注意力系数,并以各个编码向量各自的注意力系数为权重因子,对各个编码向量求和。然后,基于所述K个子嵌入向量,确定总嵌入向量;并基于所述总嵌入向量,进行说话人识别。

    一种语音的防伪攻击检测方法、装置及设备

    公开(公告)号:CN119170051A

    公开(公告)日:2024-12-20

    申请号:CN202411217063.2

    申请日:2024-08-30

    Abstract: 本说明书实施例公开了一种语音的防伪攻击检测方法、装置及设备,该方法包括:获取待检测的语音数据;将所述语音数据输入到语音防伪攻击检测模型中的由多个编码块串联构成的第一编码子模型中,获取每个编码块输出的语音编码信息;基于所述多个编码块中每个编码块输出的语音编码信息,通过所述语音识别模型中的语音处理子模型对所述语音数据进行防伪攻击检测处理,得到所述语音数据对应的检测结果。

    语音预训练方法、装置、存储介质及电子设备

    公开(公告)号:CN119028327A

    公开(公告)日:2024-11-26

    申请号:CN202411184191.1

    申请日:2024-08-27

    Inventor: 吕安旗 王志铭

    Abstract: 本说明书实施例公开了一种语音预训练方法、装置、存储介质及电子设备,首先获取语音样本及语音样本对应的音素数据,提取语音样本中各语音帧的语音特征,并根据语音特征和音素数据将语音样本划分为至少一个语音片段,其中一个语音片段对应一个音素。然后根据同一音素对应的语音片段中各语音帧的语音特征确定各个音素的目标特征。进一步地,将各音素的目标特征作为初始聚类中心,并基于各初始聚类中心将语音样本中各语音帧的语音特征进行聚类,得到对应的聚类标签。最后利用聚类标签对预设网络模型进行训练,得到语音预训练模型,该语音预训练模型能够在下游语音任务表现出更好的性能。

    一种语音模型训练方法、装置、存储介质及电子设备

    公开(公告)号:CN118969016A

    公开(公告)日:2024-11-15

    申请号:CN202410853569.6

    申请日:2024-06-27

    Inventor: 顾艳梅 王志铭

    Abstract: 本说明书实施例公开了一种语音模型训练方法、装置、存储介质及电子设备,首先分别利用语音模型和文本模型对训练样本集中的训练样本进行特征提取,得到训练样本对应的样本音频特征和样本文本特征;然后根据训练样本集中训练样本的样本音频特征和样本音频的音频类别信息,生成分类损失值,分类损失值表征音频类别信息和实际类别信息之间的差异;然后根据训练样本集中训练样本的样本音频特征和样本文本特征,生成相似度损失值,相似度损失值表征样本音频特征和样本文本特征之间的相似度;最后根据分类损失值和相似度损失值,调整语音模型和文本模型的参数。

    属性识别方法和装置
    29.
    发明授权

    公开(公告)号:CN115062691B

    公开(公告)日:2024-09-06

    申请号:CN202210581712.1

    申请日:2022-05-26

    Abstract: 本说明书实施例描述了属性识别方法和装置。根据实施例的方法,首先获取来自至少两个模态的用于对属性进行识别的原始数据,然后分别针对每种模态的原始数据进行属性特征的挖掘。进一步,将得到的各个模态的属性特征进行融合后,即可根据融合后的融合特征得到属性的识别结果。本方案是通过将不同模态的数据进行融合来实现对属性的识别,如此能够充分吸取各个模态的数据对属性进行识别的优势,不会遗漏某些对属性识别有利的信息,从而能够提高属性识别的准确性。

    流式语音识别方法、装置及电子设备

    公开(公告)号:CN116741160A

    公开(公告)日:2023-09-12

    申请号:CN202310627778.4

    申请日:2023-05-30

    Inventor: 李强 王志铭

    Abstract: 本说明书实施例公开了一种端到端流式语音识别方法,包括:获取待识别语音流;将所述待识别语音流输入预先训练的扩散模型,通过所述扩散模型的逆扩散过程预测出所述待识别语音流的至少一帧未来语音帧;将获取的至少一帧所述未来语音帧与所述待识别语音流进行拼接,得到拼接语音流;对所述拼接语音流进行语音识别,获得语音识别结果。相应地,本发明公开了端到端流式语音识别装置。

Patent Agency Ranking