-
公开(公告)号:CN115713943A
公开(公告)日:2023-02-24
申请号:CN202211413063.0
申请日:2022-11-11
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0216 , G10L21/0264 , G10L21/0272 , G10L25/30
Abstract: 本发明公布了一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。训练阶段,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征。基于复空间角中心高斯混合聚类模型,计算各目标声源的掩蔽值,作为双向长短时记忆网络的训练目标,损失函数采用均方误差损失。测试阶段,根据双向长短时记忆网络输出的各目标声源在参考通道测试语音信号中的掩蔽估计值,计算多通道测试语音信号的协方差矩阵并进行广义特征值分解,基于各目标声源预期信噪比增益最大化准则,得到各目标声源的波束成形器系数,从而分离得到各目标声源。
-
公开(公告)号:CN112201276B
公开(公告)日:2022-04-29
申请号:CN202011251485.3
申请日:2020-11-11
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/21 , G10L25/30
Abstract: 本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。
-
公开(公告)号:CN111948609B
公开(公告)日:2022-02-18
申请号:CN202010872003.X
申请日:2020-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于Soft‑argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft‑argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft‑argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN110718232B
公开(公告)日:2020-08-18
申请号:CN201910896903.5
申请日:2019-09-23
Applicant: 东南大学
IPC: G10L21/0208 , G10L25/27
Abstract: 本发明公开了一种基于二维语谱图和条件生成对抗网络的语音增强方法,将语音信号经过短时傅里叶变换后的若干帧频谱组成二维语谱图,将其作为条件生成对抗网络的输入特征,通过生成网络G和判别网络D的互相对抗训练生成网络G。测试过程中,提取含噪语音的二维语谱图,训练阶段得到的G网络直接将含噪语谱图映射为增强语谱图,从而实现语音增强。本专利基于语谱图和条件生成对抗网络的语音增强算法大幅提高了增强后语音的感知质量,且算法的泛化性能好,具有较强的鲁棒性。
-
公开(公告)号:CN104485103B
公开(公告)日:2017-09-01
申请号:CN201410676529.5
申请日:2014-11-21
Applicant: 东南大学
IPC: G10L15/14
Abstract: 一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过模型训练阶段:设置基本环境信噪比,利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;通过孤立词识别阶段,根据训练阶段获得的含噪GMM模型,首先选择与当前测试环境最匹配的信噪比环境;其次基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差,并根据最小均方误差准则将测试语音特征参数映射到最匹配信噪比环境下的含噪语音特征参数;最后,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。本发明误识率比现有矢量泰勒级数大幅降低。
-
公开(公告)号:CN103338232B
公开(公告)日:2016-09-21
申请号:CN201310221993.0
申请日:2013-06-06
Applicant: 东南大学
Abstract: 本发明公开了一种云计算的一个分布式访问控制方法,属于云计算安全技术领域。本方法包括如下步骤:(1)角色创建删除阶段:通过云服务器CS,授权服务器AS和发行人这三个实体之间的沟通实现创建和删除文件及其相关的角色。(2)角色分配阶段:通过发行人、数据用户DU,云服务器CS和授权服务器AS这四个实体之间的沟通实现把角色分配给数据用户。(3)访问控制阶段:通过云服务器CS和数据用户DU之间的沟通实现对云服务器CS上文件的访问控制。本发明把访问控制过程从授权过程中分离了出来,使得授权服务器的负担减小,并且避免了授权服务器的分布式拒绝服务(DDOS)攻击。
-
公开(公告)号:CN104485103A
公开(公告)日:2015-04-01
申请号:CN201410676529.5
申请日:2014-11-21
Applicant: 东南大学
IPC: G10L15/14
Abstract: 一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过模型训练阶段:设置基本环境信噪比,利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;通过孤立词识别阶段,根据训练阶段获得的含噪GMM模型,首先选择与当前测试环境最匹配的信噪比环境;其次基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差,并根据最小均方误差准则将测试语音特征参数映射到最匹配信噪比环境下的含噪语音特征参数;最后,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。本发明误识率比现有矢量泰勒级数大幅降低。
-
公开(公告)号:CN102438189B
公开(公告)日:2014-07-09
申请号:CN201110252923.2
申请日:2011-08-30
Applicant: 东南大学
IPC: H04R1/20
Abstract: 一种基于双通路声信号的声源定位方法是一种改进的声源定位方法,本法将各频带耳间时间差ITD和耳间强度差IID的均值和方差作为声源方位的定位特征线索,建立方位映射模型。在实际声源定位时,输入为双通路声信号,输入声信号先经过类似人耳听觉滤波器的Gammatone滤波器组进行频带划分、滤波处理后,输入特征提取模块,提取出各子带的ITD、IID定位信息,基于高斯混合模型GMM整合各子带的ITD、IID定位线索,得到ITD、IID在各方位角相应频带上的似然值,作为方位估计的判决值。该系统具有较高的声源定位性能。
-
公开(公告)号:CN103747440A
公开(公告)日:2014-04-23
申请号:CN201410011049.7
申请日:2014-01-09
Applicant: 东南大学
CPC classification number: Y02D70/30
Abstract: 本发明公开了无线传感网络中一种基于幻影单径路由的增强性源位置隐私保护方法,属于物联网安全技术领域,包括如下步骤:网络安全初始化阶段,实现节点的静态部署与网络参数的预载入;源节点h跳有限洪泛阶段,标记出可视区内的节点,并计算出源节点h跳内的除可视区内各节点距离源节点的最小跳数值,然后基站向非可视区内的节点广播初始化消息;随机hx跳有向路由阶段,产生尽量远离源节点的环状幻像源节点区域;最短路径路由阶段,实现在较短的时间内将数据包从幻像源节点发送给基站。本发明是一种既能增加随机有向路径数量,又能避免失效路径产生的源位置隐私保护方法,比起现有方案显著提高了源位置隐私的安全性,平均安全时间也得到了很大提高。
-
公开(公告)号:CN102565759B
公开(公告)日:2013-10-30
申请号:CN201110448129.5
申请日:2011-12-29
Applicant: 东南大学
IPC: G01S5/18
Abstract: 一种基于子带信噪比估计的双耳声源定位方法,为一种改进的声源定位方法,将各方位耳间时间差ITD(Interaural Time Difference)的均值作为声源方位的定位特征线索,建立方位映射模型;实际声源定位时,输入为双通路声信号,输入声信号先经过频域变换,在频域划分若干子带,在各子带内进行信噪比估计,根据子带信噪比,选择相应子带的功率谱计算各帧的ITD参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,输出方位。本发明方法提高了噪声环境下声源定位的性能。
-
-
-
-
-
-
-
-
-