Patent search ap:("北京华控智加科技有限公司") AND inv:"何亮" Page 1

1.

发明授权
一种基于二次建模的说话人识别方法有权转让

公开(公告)号：CN106898355B

公开(公告)日：2020-04-14

申请号：CN201710031899.7

申请日：2017-01-17

Applicant: 北京华控智加科技有限公司

Inventor： 何亮 , 陈仙红 , 徐灿 , 刘艺 , 田垚 , 刘加

IPC: G10L17/18 , G10L17/14 , G10L17/02 , G10L17/04

Abstract: 本发明提出一种基于二次建模的说话人识别方法，属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段，获取待识别说话人的训练语音数据并预处理；根据训练语音数据训练得到第一个DNN模型；利用第一个DNN模型，对训练语音数据进行识别，提取易混语音数据；根据易混语音数据训练得到第二个DNN模型；在说话人识别阶段，获取待识别语音数据并预处理；利用第一个DNN模型对待识别语音数据进行识别，若识别概率大于设定阈值，则得到说话人识别结果；否则通过第二个DNN模型对待识别语音数据进行第二次识别，得到说话人识别结果。本发明通过建立两个DNN模型，同时考虑说话人宏观特征和微观特征，有效提高说话人识别的准确率。

2.

发明授权
基于DNN模型和支持向量机模型的说话人个数估计方法有权转让

公开(公告)号：CN106898354B

公开(公告)日：2020-05-19

申请号：CN201710123753.5

申请日：2017-03-03

Applicant: 北京华控智加科技有限公司

Inventor： 何亮 , 徐灿 , 陈仙红 , 刘艺 , 田垚 , 刘巍巍 , 刘加

IPC: G10L17/04 , G10L17/18 , G10L25/48

Abstract: 本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法，属于语音信号处理和深度学习领域。模型训练阶段，首先获取N个说话人的训练语音数据，得到深度神经网络DNN模型；然后获取M个说话人的训练语音数据，每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率，组成M个说话人的N维特征，建立M个支持向量机SVM模型；说话人个数估计阶段，将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分，得分最高的SVM模型即为该条待测语音数据所对应的类别，类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题，提高语音数据中说话人个数估计的准确率。

3.

发明授权
身份验证的方法、装置、计算机设备及存储介质有权

公开(公告)号：CN110379433B

公开(公告)日：2021-10-08

申请号：CN201910711306.0

申请日：2019-08-02

Applicant: 清华大学 , 北京华控智加科技有限公司

Inventor： 刘加 , 刘艺 , 何亮 , 张卫强

IPC: G10L17/14 , G06F21/32

Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括：获取目标用户根据目标动态验证码输入的语音数据；根据预设的分段算法，将语音数据划分为至少一个语音帧；针对每个语音帧，根据预设的声学特征提取算法，提取该语音帧对应的声学特征向量；将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型，输出该语音帧对应的中间用户特征向量和第一后验概率集合；根据各语音帧对应的中间用户特征向量和预设的池化算法，确定目标用户对应的第一用户特征向量；根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合，对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度，提高服务器的处理效率。

4.

发明授权
基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统有权转让

公开(公告)号：CN106971713B

公开(公告)日：2020-01-07

申请号：CN201710035673.4

申请日：2017-01-18

Applicant: 北京华控智加科技有限公司

Inventor： 何亮 , 徐灿 , 田垚 , 刘艺 , 刘加

IPC: G10L15/14 , G10L17/02 , G10L17/04 , G10L17/14 , G10L25/24

Abstract: 本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统，属于声纹识别和模式识别领域。本发明方法首先建立训练语音数据库，得到通用背景模型和子空间模型；然后通过i‑vector因子提取方法得到待测语音数据的每一段的i‑vector因子；使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率，使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率，得出说话人标记结果。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性，说话人标记性能极易受初始值影响而产生较大偏差等问题；增强了说话人标记的准确率、稳定性和灵活性。

5.

发明公开
身份验证的方法、装置、计算机设备及存储介质有权

公开(公告)号：CN110379433A

公开(公告)日：2019-10-25

申请号：CN201910711306.0

申请日：2019-08-02

Applicant: 清华大学 , 北京华控智加科技有限公司

Inventor： 刘加 , 刘艺 , 何亮 , 张卫强

IPC: G10L17/14 , G06F21/32

Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括：获取目标用户根据目标动态验证码输入的语音数据；根据预设的分段算法，将语音数据划分为至少一个语音帧；针对每个语音帧，根据预设的声学特征提取算法，提取该语音帧对应的声学特征向量；将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型，输出该语音帧对应的中间用户特征向量和第一后验概率集合；根据各语音帧对应的中间用户特征向量和预设的池化算法，确定目标用户对应的第一用户特征向量；根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合，对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度，提高服务器的处理效率。

6.

发明授权
一种基于数字口令与声纹联合确认的用户身份验证方法有权转让

公开(公告)号：CN107104803B

公开(公告)日：2020-01-07

申请号：CN201710208226.4

申请日：2017-03-31

Applicant: 北京华控智加科技有限公司

Inventor： 刘艺 , 何亮 , 田垚 , 陈仙红 , 刘加

IPC: H04L9/32 , G10L15/06 , G10L15/26 , G10L17/04 , G10L17/14

Abstract: 本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法，属于身份验证技术领域。该方法包括初始化阶段：获取初始化训练音频并建立文本相关的通用背景模型；注册阶段：记录用户注册信息并建立文本相关的用户模型；验证阶段：用户按照服务器指定的顺序录制用户验证音频，根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型，验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符，得到声纹验证分数和文本验证分数；将两个验证分数加权求和得到最终验证分数，当最终验证分数超过设定阈值时，验证通过。本发明在传统口令验证的基础上，结合数字口令确认和声纹确认，增强了身份验证的安全性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification