-
公开(公告)号:CN114097027A
公开(公告)日:2022-02-25
申请号:CN202080028823.9
申请日:2020-03-19
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算机实现的方法处理由多个分布式设备在会议期间记录的音频流。操作包括:由对应的语音识别系统对每个音频流执行语音识别,以生成话语级后验概率作为每个音频流的假设;对准假设,并且将其格式化为具有关联的词语级后验概率的词语混淆网络;由生成讲话者归属词语假设流的讲话者标识算法,对每个音频流执行讲话者识别;将具有关联的讲话者标签后验概率的讲话者假设和每个音频流的讲话者归属假设格式化为讲话者混淆网络;将来自所有音频流的词语和讲话者混淆网络彼此对准,以合并后验概率并且对准词语和讲话者标签;以及通过选择具有最高后验概率的词语和讲话者标签序列,创建最佳的讲话者归属的文字记录稿。
-
公开(公告)号:CN113906503B
公开(公告)日:2025-02-28
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN113874936A
公开(公告)日:2021-12-31
申请号:CN202080032257.9
申请日:2020-03-17
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26 , G10L19/018 , G10L21/0216 , H04L12/18 , G06N3/08 , G06N3/04 , G06F40/279
Abstract: 提供了用于基于分布式系统中的用户偏好提供定制输出的系统和方法。在示例实施例中,会议服务器或系统从智能会议所涉及的多个分布式设备接收音频流。会议系统标识与多个分布式设备中的分布式设备相对应的用户,并且确定用户的偏好语言。来自所接收的音频流的转录本被生成。会议系统将转录本翻译为用户的偏好语言,以形成所翻译的转录本。所翻译的转录本被提供给用户的分布式设备。
-
公开(公告)号:CN112075075A
公开(公告)日:2020-12-11
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
公开(公告)号:CN105229586A
公开(公告)日:2016-01-06
申请号:CN201480019548.9
申请日:2014-03-31
Applicant: 微软技术许可有限责任公司
IPC: G06F3/0482 , G06F3/0481
CPC classification number: G06F3/0482 , G06F3/0481 , G06F3/04817
Abstract: 本文公开了导航列表中的消息或者其它项目的各种技术。在一个实施例中,方法包括接收对便携式电子设备上所显示的消息列表的用户导航输入,并且基于所接收的用户导航输入来检测用户访问列表中的附加消息的意图。如果检测到用户意图,则在显示器上显示一个或者多个界面表示。每个界面表示对应于列表中的消息子集。
-
公开(公告)号:CN112075075B
公开(公告)日:2022-12-06
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
公开(公告)号:CN113906503A
公开(公告)日:2022-01-07
申请号:CN202080032660.1
申请日:2020-03-18
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0272
Abstract: 一种计算机实现的方法,包括:经由从对应的多个分布式设备传送的多个音频流,接收表示语音的音频信号;经由神经网络模型,针对具有重叠语音的接收的音频信号中的一个或多个音频信号执行连续语音分离;以及在固定数目的分离的输出音频通道上提供分离的语音。
-
公开(公告)号:CN115982224A
公开(公告)日:2023-04-18
申请号:CN202111171432.5
申请日:2021-10-08
Applicant: 微软技术许可有限责任公司
IPC: G06F16/2458 , G06Q10/20
Abstract: 本公开提供了用于为多变量时序数据异常检测提供解释性的方法、装置和计算机程序产品。多变量时序数据异常检测可以是通过多变量时序数据异常检测模型、针对由多个时序数据所形成的多变量时序数据来执行的。可以从多变量时序数据异常检测模型处获得至少指示了异常时段的异常检测结果。可以确定多个时序数据在异常时段内的异常时段相关性度量。可以确定多个时序数据在异常时段之前的回溯时段内的回溯时段相关性度量。可以基于异常时段相关性度量与回溯时段相关性度量之间的差异,从多个时序数据中识别在异常时段内具有异常相关性的至少一个时序数据对。可以提供针对异常检测结果的解释性内容,所述解释性内容至少指示所述至少一个时序数据对。
-
公开(公告)号:CN102929505B
公开(公告)日:2016-03-02
申请号:CN201210454485.2
申请日:2012-11-13
Applicant: 微软技术许可有限责任公司
Inventor: 秦莉娟
IPC: G06F3/0484 , G06F3/01
CPC classification number: G06F3/01 , G06F3/0484 , G06F17/275 , H04M2250/58 , H04M2250/70
Abstract: 提供了用于自适应输入语言切换的技术和解决方案。当前输入语言的自动切换可通过以下操作来执行:接收所显示的内容的第一语言的指示(其中当前输入语言被设为与第一语言不同的第二语言)、接收对文本输入区域的选择、以及基于所述选择自动将当前输入语言从第二语言切换成第一语言。当前输入语言的切换还可通过提供供用户选择来自动切换当前输入语言的方便的用户界面元素来执行。
-
-
-
-
-
-
-
-