结合ASR预训练的语种识别方法和系统

    公开(公告)号:CN115938345A

    公开(公告)日:2023-04-07

    申请号:CN202211678442.2

    申请日:2022-12-26

    Inventor: 吕安旗 王志铭

    Abstract: 本公开提供了一种用于语种识别的方法和系统,方法包括:接收输入的语音信号;对该语音信号进行特征提取以得到初始语音特征向量;将该初始语音特征向量送入编码器以得到高层语音特征向量,其中该编码器是通过在语音识别模型中进行预训练以及迁移至语种识别模型进行微调训练来得到的;以及将该高层语音特征向量送入该语种识别模型中的分类器以预测语种识别结果。

    一种训练语种识别模型、语种识别的方法及装置

    公开(公告)号:CN115565522A

    公开(公告)日:2023-01-03

    申请号:CN202211507938.3

    申请日:2022-11-29

    Abstract: 本说明书实施例提供一种训练语种识别模型、语种识别的方法及装置,语种识别模型包括:提取网络、聚合网络和分类网络,提取网络包括串行设置的预设数量个包括自注意力子层和卷积子层的特征提取层,该方法包括,获得目标语音片段对应的语音特征,目标语音片段具有语种标签;利用预设数量个特征提取层,对语音特征进行预设数量次特征提取,得到帧级别特征向量;特征提取包括,利用自注意力子层进行基于自注意力的特征处理和利用卷积子层进行卷积处理;利用聚合网络,基于自注意力机制和统计机制对帧级别特征向量进行聚合,得到聚合特征向量;利用分类网络处理聚合特征向量,确定目标语音片段的预测语种;根据预测语种和语种标签,更新语种识别模型。

    声纹编码网络的训练方法及装置

    公开(公告)号:CN113299295B

    公开(公告)日:2022-12-30

    申请号:CN202110513396.X

    申请日:2021-05-11

    Inventor: 王志铭 熊涛

    Abstract: 本说明书实施例提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将该声学特征输入声纹编码网络,得到第一编码向量;确定第一训练损失,其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离;基于第一训练损失和第二训练损失,训练声纹编码网络和类别权重向量。

    属性识别方法和装置
    14.
    发明公开

    公开(公告)号:CN115062691A

    公开(公告)日:2022-09-16

    申请号:CN202210581712.1

    申请日:2022-05-26

    Abstract: 本说明书实施例描述了属性识别方法和装置。根据实施例的方法,首先获取来自至少两个模态的用于对属性进行识别的原始数据,然后分别针对每种模态的原始数据进行属性特征的挖掘。进一步,将得到的各个模态的属性特征进行融合后,即可根据融合后的融合特征得到属性的识别结果。本方案是通过将不同模态的数据进行融合来实现对属性的识别,如此能够充分吸取各个模态的数据对属性进行识别的优势,不会遗漏某些对属性识别有利的信息,从而能够提高属性识别的准确性。

    一种语音识别方法、装置及设备
    15.
    发明公开

    公开(公告)号:CN118522273A

    公开(公告)日:2024-08-20

    申请号:CN202410726526.1

    申请日:2024-06-05

    Inventor: 王志铭 祝慧佳

    Abstract: 本说明书实施例公开了一种语音识别方法、装置及设备,该方法包括:将语音序列数据输入到语音识别模型中的线性编码器中,得到语音序列数据对应的第一线性编码序列;将第一线性编码序列输入到语音识别模型中的编码器中,得到语音序列数据对应的编码结果,编码器由多个相互串联的语音处理子模型构成,每个语音处理子模型包括线性循环模块和输出模块,线性循环模块中包括前向循环和逆向循环,输出模块用于基于前向循环中当前线性循环模块的隐藏状态、逆向循环中当前线性循环模块的隐藏状态,以及前向循环对应的输入数据,确定语音处理子模型对应的结果;将编码结果输入到语音识别模型中的解码器中,得到语音序列数据对应的识别结果。

    语音合成的模型训练方法、语音合成方法及装置

    公开(公告)号:CN118430509A

    公开(公告)日:2024-08-02

    申请号:CN202410694152.X

    申请日:2024-05-30

    Inventor: 周佳依 王志铭

    Abstract: 本说明书实施例公开了一种语音合成的模型训练方法、语音合成方法及装置,首先获取第一文本序列及对应的真实语音数据,并将真实语音数据转化为真实梅尔频谱。然后利用第一文本序列和真实梅尔频谱对预设的声学模型进行训练,训练完成后,将第一文本序列输入训练好的声学模型中,得到第一预测梅尔频谱。进一步利用真实语音数据、真实梅尔频谱以及第一预测梅尔频谱对预设的声码器模型进行训练,直至声码器模型收敛;最后利用训练好的声学模型及声码器模型将待合成语音的第二文本序列转换为语音。

    数据处理方法、装置及设备

    公开(公告)号:CN116844553B

    公开(公告)日:2024-07-09

    申请号:CN202310651826.3

    申请日:2023-06-02

    Inventor: 顾艳梅 王志铭

    Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:接收待检测的目标音频数据,通过预先训练的检测模型对目标音频数据进行频谱提取处理,得到与目标音频数据对应的目标频谱数据,并通过预先训练的检测模型对目标频谱数据进行音频合成处理,得到与目标音频数据对应的合成音频数据,通过预先训练的检测模型分别对目标音频数据和合成音频数据进行声纹提取处理,得到与目标音频数据对应的第一声纹特征向量,以及与合成音频数据对应的第二声纹特征向量,基于第一声纹特征向量和第二声纹特征向量之间的相似度,对目标音频数据为合成数据或非合成数据进行判断,得到针对目标音频数据的检测结果。

    数据处理方法、装置及设备
    18.
    发明公开

    公开(公告)号:CN117612556A

    公开(公告)日:2024-02-27

    申请号:CN202311554838.0

    申请日:2023-11-21

    Inventor: 吕安旗 王志铭

    Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:基于预设时间步长对待识别的音频数据进行文本识别处理,在当前时间步长对应的候选识别序列包含预设关键字符,且当前时间步长对应的字符包含识别概率大于预设概率阈值的空字符的情况下,基于预设关键字符对应的预设分值、预设关键字符权重,对当前时间步长对应的候选识别序列的识别分值进行更新处理,基于更新后的当前时间步长对应的候选识别序列的识别分值,确定当前时间步长对应的识别序列,继续确定当前时间步长的下一个时间步长对应的识别序列,得到最后一个时间步长对应的识别序列,基于最后一个时间步长对应的识别序列的识别分值,确定与音频数据对应的文本识别结果。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN117475992A

    公开(公告)日:2024-01-30

    申请号:CN202311560939.9

    申请日:2023-11-21

    Inventor: 王涛 王志铭

    Abstract: 本申请实施例提供一种语音合成方法、装置、设备及存储介质,其中方法包括:将待合成语音的文本序列输入到音素预测模型中,得到所述文本序列对应的音素序列;将所述音素序列拆分为多维序列;其中,所述多维序列包括:字母序列和声调序列,所述字母序列由所述音素序列中的字母符号组成,所述声调序列由所述音素序列中的声调符号组成;将所述多维序列输入到声学模型中,预测所述音素序列对应的语音特征;其中,所述声学模型用于根据所述多维序列预测所述音素序列对应的语音特征,其基于音素序列样本拆分得到的多维序列预先训练得到;将所述音素序列对应的语音特征输入到声码器中,得到所述文本序列对应的语音。

    数据处理方法、装置及设备
    20.
    发明公开

    公开(公告)号:CN116844553A

    公开(公告)日:2023-10-03

    申请号:CN202310651826.3

    申请日:2023-06-02

    Inventor: 顾艳梅 王志铭

    Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:接收待检测的目标音频数据,通过预先训练的检测模型对目标音频数据进行频谱提取处理,得到与目标音频数据对应的目标频谱数据,并通过预先训练的检测模型对目标频谱数据进行音频合成处理,得到与目标音频数据对应的合成音频数据,通过预先训练的检测模型分别对目标音频数据和合成音频数据进行声纹提取处理,得到与目标音频数据对应的第一声纹特征向量,以及与合成音频数据对应的第二声纹特征向量,基于第一声纹特征向量和第二声纹特征向量之间的相似度,对目标音频数据为合成数据或非合成数据进行判断,得到针对目标音频数据的检测结果。

Patent Agency Ranking