-
公开(公告)号:CN118193601A
公开(公告)日:2024-06-14
申请号:CN202211601686.0
申请日:2022-12-13
Applicant: 微软技术许可有限责任公司
IPC: G06F16/2457 , G06F16/248 , G06F16/28 , G06F16/29
Abstract: 根据本公开的实现,提供了用于用户界面导航的模型预训练的方案。根据该方案,获取特征提取模型,特征提取模型被配置用于提取用户界面UI导航相关的特征表示;获取UI集中的多条导航路径,导航路径包括UI集中的多个UI并且与导航任务相对应;获取多条导航路径分别对应的UI描述和任务描述,UI描述用于描述导航路径中的多个UI所包括的UI元素,任务描述用于描述导航路径对应的导航任务;以及基于UI描述和任务描述与多条导航路径之间的对应性,执行对特征提取模型的预训练。通过引入导航路径级别的训练数据来执行模型的预训练,可以使模型能够直接学习到与导航任务相关的知识表征。经预训练的模型能够更容易地泛化到下游的各种实际导航任务中。
-
公开(公告)号:CN117742844A
公开(公告)日:2024-03-22
申请号:CN202211110494.X
申请日:2022-09-13
Applicant: 微软技术许可有限责任公司
IPC: G06F9/451 , G06N3/0464 , G06N3/08
Abstract: 根据本公开的实现,提供了解析图像中元素的层级关系的方案。根据该方案,基于输入图像的特征和输入图像中的第一元素,确定第一元素中的第二元素。基于特征和第二元素,检测第二元素中的第三元素。第一元素、第二元素和第三元素对应于输入图像中的相应区域。基于对第二元素的确定和对第三元素的检测结果,确定指示输入图像中元素之间的关系的层级结构。以此方式,可以在无需后处理的情况下获得图像中元素的层级结构。
-
公开(公告)号:CN116320432A
公开(公告)日:2023-06-23
申请号:CN202310313491.4
申请日:2017-06-20
Applicant: 微软技术许可有限责任公司
IPC: H04N19/146 , H04N19/164 , H04N19/124 , H04N19/103 , H04N19/17 , H04N21/43
Abstract: 在本文所描述的主题的实施例中,提出了一种用于实时屏幕共享的方法和设备。在两个设备共享屏幕期间,如果第一设备已经编码的图像与第二设备已经解码的图像之间满足一定预定条件,则第一设备暂停处理(例如捕获、编码或发送)图像。如果暂停捕获的暂停时间达到一定长度,则调整与图像压缩比率相关联的参数。在第一设备恢复处理图像之后,利用经调整的参数来编码在第一设备上捕获的新图像。根据本文所描述的主题的实施例,根据暂停处理图像的暂停时间来控制屏幕共享期间的传输码率,而不需要估计或确定具体的网络带宽或者编解码速度。根据本文所描述的主题的实施例能够减少屏幕共享的传输延迟,从而有效地保证屏幕共享期间的用户体验。
-
公开(公告)号:CN109104610B
公开(公告)日:2023-04-11
申请号:CN201710471755.3
申请日:2017-06-20
Applicant: 微软技术许可有限责任公司
IPC: H04N19/146 , H04N19/164 , H04N19/124 , H04N19/103 , H04N19/17 , G06F9/451
Abstract: 在本文所描述的主题的实施例中,提出了一种用于实时屏幕共享的方法和设备。在两个设备共享屏幕期间,如果第一设备已经编码的图像与第二设备已经解码的图像之间满足一定预定条件,则第一设备暂停处理(例如捕获、编码或发送)图像。如果暂停捕获的暂停时间达到一定长度,则调整与图像压缩比率相关联的参数。在第一设备恢复处理图像之后,利用经调整的参数来编码在第一设备上捕获的新图像。根据本文所描述的主题的实施例,根据暂停处理图像的暂停时间来控制屏幕共享期间的传输码率,而不需要估计或确定具体的网络带宽或者编解码速度。根据本文所描述的主题的实施例能够减少屏幕共享的传输延迟,从而有效地保证屏幕共享期间的用户体验。
-
公开(公告)号:CN119586127A
公开(公告)日:2025-03-07
申请号:CN202280098286.4
申请日:2022-06-21
Applicant: 微软技术许可有限责任公司
IPC: H04N19/124 , H04N19/91 , G06N3/0455 , H04N19/13 , H04N19/517 , H04N19/186
Abstract: 本文描述了用于神经图像或视频编解码器的特征的系统、方法和软件的创新。例如,神经视频编码器可以接收当前视频帧,对当前视频帧进行编码以产生经编码数据,并且输出经编码数据以作为比特流的一部分。作为编码的一部分,编码器可以确定针对当前视频帧的当前隐表示,并且使用包括一个或多个卷积层的熵模型网络来对当前隐表示进行编码。作为对当前隐表示进行编码的一部分,编码器可以至少部分地基于针对先前视频帧的先前隐表示来估计当前隐表示的量化版本的统计特性,并且至少部分地基于所估计的统计特性来对当前隐表示的量化版本进行熵编解码。
-
公开(公告)号:CN115868161A
公开(公告)日:2023-03-28
申请号:CN202080102562.0
申请日:2020-06-30
Applicant: 微软技术许可有限责任公司
IPC: H04N19/14
Abstract: 本文描述的主题的实现提供了基于强化学习的速率控制的解决方案。在此解决方案中,视频编码器的编码状态被确定,该编码状态与由视频编码器对第一视频单元的编码相关联。通过强化学习模型并且基于视频编码器的编码状态来确定与视频编码器中的速率控制相关联的编码参数。基于编码参数对不同于第一视频单元的第二视频单元进行编码。通过这种方式,可以在减少计算开销的情况下实现更好的实时通信体验质量(QOE)。
-
公开(公告)号:CN115550652A
公开(公告)日:2022-12-30
申请号:CN202110738324.5
申请日:2021-06-30
Applicant: 微软技术许可有限责任公司
Abstract: 根据本公开的实现,提供了基于上下文的图像编解码方案。根据该方案,获取目标图像的参考图像。提取所述参考图像的上下文特征表示。所述上下文特征表示表征与所述目标图像相关联的上下文信息。基于所述上下文特征表示来执行对所述目标图像的条件编码或解码。由此,实现了在重构质量和压缩效率方面实现性能提升。
-
公开(公告)号:CN109426776A
公开(公告)日:2019-03-05
申请号:CN201710744908.7
申请日:2017-08-25
Applicant: 微软技术许可有限责任公司
Abstract: 本公开的实施例涉及基于深度神经网络的对象检测。给定输入图像,期望确定输入图像中的一个或多个对象的类别和边界。具体地,从图像的特征图生成多个通道组,所述图像至少包括与网格相对应的区域。从所述多个通道组中的与所述网格中的单元相关联的至少一个通道组提取目标特征图。基于所述目标特征图,可以确定与所述区域内的对象有关的信息。与对象有关的信息可以是对象的类别和/或边界。
-
公开(公告)号:CN119317957A
公开(公告)日:2025-01-14
申请号:CN202280096502.1
申请日:2022-06-14
Applicant: 微软技术许可有限责任公司
Abstract: 描述了用于编码和解码诸如音频数据的信号的技术和解决方案。所公开的创新可以特别用于语音编解码应用,诸如用于实时通信。使用神经网络,上下文编解码可以用于使用来自过去帧的重建的潜在特征的预测作为上下文来针对当前帧编码潜在特征。提取器基于这种预测和使用编码器获得的当前帧的潜在特征来学习类残差特征。然后量化类残差特征。在编解码框架的解码器部分,量化特征被去量化,然后与来自先前重建的潜在特征的预测组合以提供当前帧的重建特征,然后可以由解码器处理该重建特征以提供重建信号。
-
公开(公告)号:CN118151807A
公开(公告)日:2024-06-07
申请号:CN202211567251.9
申请日:2022-12-07
Applicant: 微软技术许可有限责任公司
IPC: G06F3/04815 , G06F3/04886 , G06F9/451
Abstract: 根据本公开的实现,提供了用于用户界面(UI)自动化导航的方案。根据该方案,针对UI元素,生成表示UI元素的标记。这些UI元素至少包括所呈现的当前UI中的一个或多个UI元素。至少利用对应于当前导航任务的特定信息将这些标记变换成这些UI元素各自的特征表示。基于特征表示,从当前所呈现的UI元素中确定针对当前导航任务的目标元素。执行与目标元素相关联的操作。以此方式,利用导航任务特定的信息,有利于提高针对各种导航任务的性能。
-
-
-
-
-
-
-
-
-