-
公开(公告)号:CN112331181A
公开(公告)日:2021-02-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN112331181B
公开(公告)日:2024-07-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN110867178B
公开(公告)日:2022-01-21
申请号:CN201810986855.4
申请日:2018-08-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
-
公开(公告)号:CN113345421A
公开(公告)日:2021-09-03
申请号:CN202010098250.9
申请日:2020-02-18
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法,包括:获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征,并串接,得到第一特征;计算H个通道对的SRP‑PHAT,根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;提取出预存的目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力,从而进一步提升模型对于目标说话人语音的识别性能。
-
公开(公告)号:CN110867178A
公开(公告)日:2020-03-06
申请号:CN201810986855.4
申请日:2018-08-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
-
公开(公告)号:CN113345421B
公开(公告)日:2022-08-02
申请号:CN202010098250.9
申请日:2020-02-18
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法,包括:获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征,并串接,得到第一特征;计算H个通道对的SRP‑PHAT,根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;提取出预存的目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力,从而进一步提升模型对于目标说话人语音的识别性能。
-
-
-
-
-