-
公开(公告)号:CN114097027A
公开(公告)日:2022-02-25
申请号:CN202080028823.9
申请日:2020-03-19
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由生成讲话者归属词语假设流的讲话者标识算法,对每个音频流执行讲话者识别;将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签序列,创建最佳的讲话者归属的文字记录稿。
-
公开(公告)号:CN113874936A
公开(公告)日:2021-12-31
申请号:CN202080032257.9
申请日:2020-03-17
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26 , G10L19/018 , G10L21/0216 , H04L12/18 , G06N3/08 , G06N3/04 , G06F40/279
Abstract: 提供了用于基于分布式系统中的用户偏好提供定制输出的系统和方法。在示例实施例中,会议服务器或系统从智能会议所涉及的多个分布式设备接收音频流。会议系统标识与多个分布式设备中的分布式设备相对应的用户,并且确定用户的偏好语言。来自所接收的音频流的转录本被生成。会议系统将转录本翻译为用户的偏好语言,以形成所翻译的转录本。所翻译的转录本被提供给用户的分布式设备。
-
公开(公告)号:CN113906503B
公开(公告)日:2025-02-28
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN118871931A
公开(公告)日:2024-10-29
申请号:CN202380027382.4
申请日:2023-02-13
Applicant: 微软技术许可有限责任公司
Inventor: D·B·迪米特利亚迪斯 , A·A·蒙泰罗·马诺埃尔 , R·A·西姆 , Y·J·周
IPC: G06N3/0895 , G06N3/098 , G06N3/096 , G06N3/084
Abstract: 协作学习中的集成知识转移的示例包括:在主节点处,接收来自多个远程节点的多个经训练的代理机器学习(ML)模型,其中被接收的每个代理ML模型来自多个远程节点中不同的一个远程节点,并且其中多个远程节点中的每个远程节点跨网络远离主节点;使用多个代理ML模型来训练主ML模型,其中训练主ML模型包括:对于主训练数据集的多个训练例中的每个训练例,至少基于关于至少基于所述代理ML模型中每个代理ML模型训练例的置信度,对来自相应代理ML模型的结果进行加权。
-
公开(公告)号:CN113906503A
公开(公告)日:2022-01-07
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
-
-
-