神经网络模型训练装置和方法

    公开(公告)号:CN106203616A

    公开(公告)日:2016-12-07

    申请号:CN201510220950.X

    申请日:2015-05-04

    Inventor: 石自强 刘汝杰

    Abstract: 本公开涉及神经网络模型训练装置和方法。所述装置包括:迭代计算单元,用于对神经网络模型中的路径的权重进行迭代计算;以及判断与输出单元,用于当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为最终权重,其中,迭代计算单元包括:权重计算单元,用于计算本次迭代的路径的权重;相关函数计算单元,用于从用于训练所述神经网络模型的样本集合中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持样本集合中除所选样本之外的其它样本的相关函数不变,样本的相关函数是与样本的损失函数相关联的函数;以及总相关函数计算单元,用于根据所选样本和其它样本的相关函数来计算本次迭代的总相关函数。

    训练面部检测模型的方法和装置及面部检测方法

    公开(公告)号:CN117152804A

    公开(公告)日:2023-12-01

    申请号:CN202210538374.3

    申请日:2022-05-18

    Abstract: 本公开内容涉及训练面部检测模型的方法和装置及面部检测方法。根据本公开内容的一个实施例,该训练模型的方法包括:提取当前批次的多个样本图像的全局特征;确定预测注意力掩码;确定图像的与各面部动作单元对应的局部特征;基于多个样本图像的与各面部动作单元对应的局部特征确定与面部动作单元集相关联的检测结果;基于检测结果确定检测损失;基于多个样本图像的各预测注意力掩码与相应预定注意力掩码的差别确定注意力损失;以及通过基于总损失调整面部检测模型的参数来优化面部检测模型。本公开内容的方法和装置的有益效果包括以下中的至少一个:改善模型的准确度鲁棒性。

    多视角向量处理方法和设备

    公开(公告)号:CN109872725B

    公开(公告)日:2022-10-18

    申请号:CN201711267389.6

    申请日:2017-12-05

    Abstract: 本申请公开了一种多视角向量处理方法和设备。多视角向量x用于表征包含至少两个不可分立的视角的信息的对象。该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数;以及匹配步骤,利用所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,计算两个多视角向量的各个视角分量相同和不同的似然性分量,对所计算的似然性分量进行预处理以获得近似似然性,并且依据所述近似似然性来判断两个多视角向量是否匹配。

    数据处理装置和数据处理方法

    公开(公告)号:CN108268948B

    公开(公告)日:2022-02-18

    申请号:CN201710001199.3

    申请日:2017-01-03

    Abstract: 本发明涉及数据处理装置和数据处理方法。根据本发明的数据处理装置包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量;划分单元,用于将i向量划分为多个簇,并计算每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明的数据处理装置和数据处理方法,可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离,从而减小在音频数据注册和识别过程中产生的计算量,同时能够得到更加充分的标签信息。

    基于声纹的身份验证方法和装置

    公开(公告)号:CN108288470B

    公开(公告)日:2021-12-21

    申请号:CN201710019531.9

    申请日:2017-01-10

    Abstract: 本发明涉及基于声纹的身份验证方法和装置。该方法包括:一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。根据本发明的身份验证方法和装置,可以从较短的语音中提取说话者的全息声纹,使得验证结果更加鲁棒。

    模型训练装置、模型训练方法及存储介质

    公开(公告)号:CN113450775A

    公开(公告)日:2021-09-28

    申请号:CN202010161930.0

    申请日:2020-03-10

    Abstract: 本公开内容涉及模型训练装置、模型训练方法及存储介质。根据一个实施例,该模型训练装置包括:提取单元,被配置成提取样本特征;第一训练单元,被配置成使用第一声音事件样本集训练单声音事件检测模型;检测单元,被配置成针对第二声音事件样本集中的每个第二声音事件样本,通过使用训练过的单声音事件检测模型,基于第二样本特征检测第二声音事件样本来确定相应检测结果;第二训练单元,被配置成使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型。本公开内容的方法、装置和存储介质至少能有助于实现以下效果之一:使对多声音事件检测模型的训练变得容易,以及有利于得到具有期望的准确度的多声音事件检测模型。

    语音分离装置、方法及介质

    公开(公告)号:CN111696572A

    公开(公告)日:2020-09-22

    申请号:CN201910188493.9

    申请日:2019-03-13

    Abstract: 公开了一种语音分离装置、方法及介质,所述语音分离装置包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。

    训练混合元学习网络的装置和方法

    公开(公告)号:CN111652664A

    公开(公告)日:2020-09-11

    申请号:CN201910160233.0

    申请日:2019-03-04

    Inventor: 杨铭 石自强 孙俊

    Abstract: 公开了一种训练混合元学习网络的装置和方法。装置包括进行下述处理的单元:获得推荐神经网络的损失并计算泛化损失,每个推荐神经网络具有嵌入层;计算泛化损失相对每个推荐神经网络的权重参数的梯度;将梯度分别输入到第一元学习网络,获得每个推荐神经网络的权重参数的更新量;基于更新量更新推荐神经网络的权重参数;使得朝向推荐神经网络的损失更小的方向训练第一元学习网络;计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第一相似度和第二相似度;朝向相似度损失更小的方向训练嵌入层和第二元学习网络的权重参数;迭代地进行上述处理直到满足第一迭代终止条件为止。

    语音分离方法、语音分离模型训练方法和计算机可读介质

    公开(公告)号:CN111128222A

    公开(公告)日:2020-05-08

    申请号:CN201811276692.7

    申请日:2018-10-30

    Abstract: 本发明涉及一种语音分离方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

    多视角向量处理方法和设备

    公开(公告)号:CN108875463A

    公开(公告)日:2018-11-23

    申请号:CN201710343390.6

    申请日:2017-05-16

    Abstract: 本申请公开了一种多视角向量处理方法和设备。其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;以及训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数。该设备包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如前所述的方法。

Patent Agency Ranking