一种基于双耳声源定位的语音分离方法

    公开(公告)号:CN104464750A

    公开(公告)日:2015-03-25

    申请号:CN201410579458.7

    申请日:2014-10-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位后的声源方位信息获取准确的混合矩阵,从而进行语音分离过程,其分离性能获得有效提升。

    一种基于双耳声源定位的语音分离方法

    公开(公告)号:CN104464750B

    公开(公告)日:2017-07-07

    申请号:CN201410579458.7

    申请日:2014-10-24

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位后的声源方位信息获取准确的混合矩阵,从而进行语音分离过程,其分离性能获得有效提升。

    一种基于压缩感知和空间方位信息的双耳语音分离方法

    公开(公告)号:CN106847301A

    公开(公告)日:2017-06-13

    申请号:CN201710002543.0

    申请日:2017-01-03

    Applicant: 东南大学

    CPC classification number: G10L21/0272 G10L21/045 G10L21/047

    Abstract: 本发明公开了一种基于压缩感知和空间方位信息的双耳语音分离方法,本方法在训练阶段首先建立每个说话人声信号的频域字典。测试中,由双耳声源定位阶段确定说话人方位信息,得到基于方位信息的混合矩阵,将多个说话人声信号频域字典组成的大字典与混合矩阵相乘,建立恢复模型,利用正交匹配追踪算法迭代求取多说话人声信号的稀疏系数,最后将多说话人声信号的频域数据大字典与稀疏系数相乘,得到各个说话人的频谱信号,并通过傅立叶逆变换重构每个说话人的时域信号,实现多说话人语音信号的分离。本发明分离的语音信号,分离指标如信干比和信噪比上得到有效提升。

Patent Agency Ranking