-
公开(公告)号:CN107112005A
公开(公告)日:2017-08-29
申请号:CN201580053839.4
申请日:2015-04-17
Applicant: 微软技术许可有限责任公司
IPC: G10L15/02
Abstract: 本文所描述的技术的各方面涉及一种新型的深度神经网络(DNN)。该新的DNN在本文中被描述成深度神经支持向量机(DNSVM)。传统的DNN在顶层和各底层处使用多项逻辑回归(softmax激活)以进行训练。新的DNN改为使用支持向量机(SVM)作为一个或多个层,包括顶层。本文所描述的技术可使用两种训练算法中的一种来训练DNSVM以在最大-间隔标准中学习SVM和DNN的参数。第一种训练方法是帧级训练。在帧级训练中,新的模型被示为与具有DNN特征的多类SVM相关。第二种训练方法是序列级训练。序列级训练与具有DNN特征和HMM状态转移特征的结构化SVM相关。
-
公开(公告)号:CN112088402A
公开(公告)日:2020-12-15
申请号:CN201980030685.5
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。
-
公开(公告)号:CN112075075A
公开(公告)日:2020-12-11
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
公开(公告)号:CN112074901A
公开(公告)日:2020-12-11
申请号:CN201980030499.1
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。
-
公开(公告)号:CN112088403B
公开(公告)日:2024-11-15
申请号:CN201980030691.0
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G10L17/18
Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。
-
公开(公告)号:CN112088402B
公开(公告)日:2024-07-26
申请号:CN201980030685.5
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。
-
公开(公告)号:CN112074901B
公开(公告)日:2024-06-04
申请号:CN201980030499.1
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。
-
公开(公告)号:CN112088403A
公开(公告)日:2020-12-15
申请号:CN201980030691.0
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G10L17/18
Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。
-
公开(公告)号:CN112075075B
公开(公告)日:2022-12-06
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
-
-
-
-
-
-
-