Patent search ap:("微软技术许可有限责任公司") AND inv:"陈卓" Page 1

1.

发明公开
与阵列几何形状无关的多通道个性化语音增强审中-实审

公开(公告)号：CN118020101A

公开(公告)日：2024-05-10

申请号：CN202280065219.2

申请日：2022-08-22

Applicant: 微软技术许可有限责任公司

Inventor： S·E·埃斯基梅兹 , 吉冈拓也 , 王华明 , H·塔赫里安 , 陈卓 , 黄学东

IPC: G10L21/0208 , G10L21/0272

Abstract: 与阵列几何形状无关的多通道个性化语音增强(PSE)的示例从目标说话者登记数据中提取说话者嵌入，该说话者嵌入表示一个或多个目标说话者的声学特性。从由麦克风阵列所捕获的输入音频中提取空间特征(例如，通道间相位差)。输入音频包括(多个)目标说话者和一个或多个干扰说话者的语音数据的混合。输入音频、所提取的说话者嵌入和所提取的空间特征被提供给经训练的与几何形状无关的PSE模型。产生输出数据，其包括(多个)目标说话者的估计的干净语音数据，其具有(多个)干扰说话者的语音数据的减少(或消除)，而经训练的PSE模型不需要麦克风阵列的几何形状信息。

2.

发明公开
用于优化分布式系统中的用户偏好的定制输出审中-实审

公开(公告)号：CN113874936A

公开(公告)日：2021-12-31

申请号：CN202080032257.9

申请日：2020-03-17

Applicant: 微软技术许可有限责任公司

Inventor： 吉冈拓也 , A·施特尔克 , 陈卓 , D·B·迪米特利亚迪斯 , 曾南山 , 秦莉娟 , W·I·欣托恩 , 黄学东

IPC: G10L15/26 , G10L19/018 , G10L21/0216 , H04L12/18 , G06N3/08 , G06N3/04 , G06F40/279

Abstract: 提供了用于基于分布式系统中的用户偏好提供定制输出的系统和方法。在示例实施例中，会议服务器或系统从智能会议所涉及的多个分布式设备接收音频流。会议系统标识与多个分布式设备中的分布式设备相对应的用户，并且确定用户的偏好语言。来自所接收的音频流的转录本被生成。会议系统将转录本翻译为用户的偏好语言，以形成所翻译的转录本。所翻译的转录本被提供给用户的分布式设备。

3.

发明公开
处理来自分布式设备的重叠语音有权

公开(公告)号：CN113906503A

公开(公告)日：2022-01-07

申请号：CN202080032660.1

申请日：2020-03-18

Applicant: 微软技术许可有限责任公司

Inventor： 吉冈拓也 , A·施特尔克 , 陈卓 , D·B·迪米特利亚迪斯 , 曾南山 , 秦莉娟 , W·I·欣托恩 , 黄学东

IPC: G10L21/0272

Abstract: 一种计算机实现的方法，包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

4.

发明授权
处理来自分布式设备的重叠语音有权

公开(公告)号：CN113906503B

公开(公告)日：2025-02-28

申请号：CN202080032660.1

申请日：2020-03-18

Applicant: 微软技术许可有限责任公司

Inventor： 吉冈拓也 , A·施特尔克 , 陈卓 , D·B·迪米特利亚迪斯 , 曾南山 , 秦莉娟 , W·I·欣托恩 , 黄学东

IPC: G10L21/0272

Abstract: 一种计算机实现的方法，包括：经由从对应的多个分布式设备传送的多个音频流，接收表示语音的音频信号；经由神经网络模型，针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离；以及在固定数目的分离的输出音频通道上提供分离的语音。

5.

发明公开
在多说话者音频流上训练和使用转录生成模型审中-实审

公开(公告)号：CN118451496A

公开(公告)日：2024-08-06

申请号：CN202280080966.3

申请日：2022-10-27

Applicant: 微软技术许可有限责任公司

Inventor： 神田直之 , 吉冈拓也 , 陈卓 , 李锦宇 , Y·高尔 , 孟中 , 王晓飞 , 肖雄

IPC: G10L15/26

Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据，并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行，其中基于CC符号将词集合中的词归类到转录行中，并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

6.

发明公开
讲话者归属的记录稿生成审中-实审

公开(公告)号：CN114097027A

公开(公告)日：2022-02-25

申请号：CN202080028823.9

申请日：2020-03-19

Applicant: 微软技术许可有限责任公司

Inventor： 吉冈拓也 , A·施特尔克 , 陈卓 , D·B·迪米特利亚迪斯 , 曾南山 , 秦莉娟 , W·I·欣托恩 , 黄学东

IPC: G10L15/26 , H04L12/18 , G10L15/32 , G10L15/08 , G10L17/00 , G10L15/14 , G10L19/018

Abstract: 一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括：由对应的语音识别系统对每个音频流执行语音识别，以生成话语级后验概率作为每个音频流的假设；对准假设，并且将其格式化为具有关联的词语级后验概率的词语混淆网络；由生成讲话者归属词语假设流的讲话者标识算法，对每个音频流执行讲话者识别；将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络；将来自所有音频流的词语和讲话者混淆网络彼此对准，以合并后验概率并且对准词语和讲话者标签；以及通过选择具有最高后验概率的词语和讲话者标签序列，创建最佳的讲话者归属的文字记录稿。

Patent Agency Ranking