深度神经支持向量机
    1.
    发明公开

    公开(公告)号:CN107112005A

    公开(公告)日:2017-08-29

    申请号:CN201580053839.4

    申请日:2015-04-17

    Abstract: 本文所描述的技术的各方面涉及一种新型的深度神经网络(DNN)。该新的DNN在本文中被描述成深度神经支持向量机(DNSVM)。传统的DNN在顶层和各底层处使用多项逻辑回归(softmax激活)以进行训练。新的DNN改为使用支持向量机(SVM)作为一个或多个层,包括顶层。本文所描述的技术可使用两种训练算法中的一种来训练DNSVM以在最大-间隔标准中学习SVM和DNN的参数。第一种训练方法是帧级训练。在帧级训练中,新的模型被示为与具有DNN特征的多类SVM相关。第二种训练方法是序列级训练。序列级训练与具有DNN特征和HMM状态转移特征的结构化SVM相关。

    用于说话者识别的联合神经网络

    公开(公告)号:CN112088402A

    公开(公告)日:2020-12-15

    申请号:CN201980030685.5

    申请日:2019-04-27

    Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。

    语音识别登入
    4.
    发明公开

    公开(公告)号:CN112074901A

    公开(公告)日:2020-12-11

    申请号:CN201980030499.1

    申请日:2019-04-30

    Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。

    使用神经网络的说话人识别/定位

    公开(公告)号:CN112088403B

    公开(公告)日:2024-11-15

    申请号:CN201980030691.0

    申请日:2019-04-30

    Inventor: 张世雄 肖雄

    Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。

    用于说话者识别的联合神经网络

    公开(公告)号:CN112088402B

    公开(公告)日:2024-07-26

    申请号:CN201980030685.5

    申请日:2019-04-27

    Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。

    语音识别登入
    7.
    发明授权

    公开(公告)号:CN112074901B

    公开(公告)日:2024-06-04

    申请号:CN201980030499.1

    申请日:2019-04-30

    Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。

    使用神经网络的说话人识别/定位

    公开(公告)号:CN112088403A

    公开(公告)日:2020-12-15

    申请号:CN201980030691.0

    申请日:2019-04-30

    Inventor: 张世雄 肖雄

    Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。

Patent Agency Ranking