-
公开(公告)号:CN108780575A
公开(公告)日:2018-11-09
申请号:CN201680077878.2
申请日:2016-06-30
Applicant: 微软技术许可有限责任公司
IPC: G06T7/00
CPC classification number: G06T7/60 , G06K9/00355 , G06K9/56 , G06K2009/4666 , G06T2207/10028
Abstract: 提供了一种图像处理方法和装置(300),所述方法包括:获得突起对象的深度图像(210);选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值(240);以及通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点(250)。
-
公开(公告)号:CN115004261B
公开(公告)日:2025-01-17
申请号:CN202080093448.6
申请日:2020-01-17
Applicant: 微软技术许可有限责任公司
IPC: G06V30/148 , G06V20/70
Abstract: 本公开的实现提供了用于文本行检测的解决方案。在该解决方案中,从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像的图像特征表示或图像的语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式,通过检测文本区域并且基于其特征表示确定其链接关系,可以提高检测各种图像中的文本行的准确性和效率。
-
公开(公告)号:CN108431794B
公开(公告)日:2022-06-21
申请号:CN201680076481.1
申请日:2016-03-18
Applicant: 微软技术许可有限责任公司
Abstract: 本公开涉及用于训练学习机的方法和装置,其中,所述装置包括:广播模块,用于向多个工作节点广播针对一训练周期的初始全局模型;接收模块,用于从所述多个工作节点接收多个更新的局部模型,其中每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型独立地生成的;聚合模块,用于聚合所述多个更新的局部模型以获取聚合模型;以及,生成模块,用于至少基于所述聚合模型和从在前的训练周期获取的历史信息来生成针对所述训练周期的更新的全局模型。
-
公开(公告)号:CN108431794A
公开(公告)日:2018-08-21
申请号:CN201680076481.1
申请日:2016-03-18
Applicant: 微软技术许可有限责任公司
IPC: G06F15/18
CPC classification number: G06F15/18 , G06N99/005
Abstract: 本公开涉及用于训练学习机的方法和装置,其中,所述装置包括:广播模块,用于向多个工作节点广播针对一训练周期的初始全局模型;接收模块,用于从所述多个工作节点接收多个更新的局部模型,其中每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型独立地生成的;聚合模块,用于聚合所述多个更新的局部模型以获取聚合模型;以及,生成模块,用于至少基于所述聚合模型和从在前的训练周期获取的历史信息来生成针对所述训练周期的更新的全局模型。
-
公开(公告)号:CN117558015A
公开(公告)日:2024-02-13
申请号:CN202210928214.X
申请日:2022-08-03
Applicant: 微软技术许可有限责任公司
IPC: G06V30/412
Abstract: 根据本公开的实现,提供了表格结构识别的方案。根据该方案,基于第一特征图,确定包括表格的图像中的第一组参考点。第一特征图根据图像生成,并且第一组参考点是表格的第一类型分隔线上的候选点。基于第一特征图的至少一部分和第一组参考点的特征,在图像中确定针对表格的一组第一类型预测分隔线。至少基于该组第一类型预测分隔线,确定表格的结构。以此方式,可以从图像中恢复各种结构的表格。
-
公开(公告)号:CN108780575B
公开(公告)日:2022-04-01
申请号:CN201680077878.2
申请日:2016-06-30
Applicant: 微软技术许可有限责任公司
IPC: G06T7/00
Abstract: 提供了一种图像处理方法和装置(300),所述方法包括:获得突起对象的深度图像(210);选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值(240);以及通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点(250)。
-
公开(公告)号:CN113269009A
公开(公告)日:2021-08-17
申请号:CN202010093899.1
申请日:2020-02-14
Applicant: 微软技术许可有限责任公司
Abstract: 根据本公开的实现,提出了一种用于图像中的文本识别的方案。在该方案中,从图像中确定预期具有待识别的文本的目标文本行区域。利用单一字符模型,确定在目标文本行区域中呈现的至少一个字符模型单元的概率分布信息。单一字符模型基于以下被训练:多个训练文本行区域和多个训练文本行区域中的相应真实文本。多个训练文本行区域中的文本以不同定向被组织,和/或真实文本包括与多种语言相关的文本(例如,与拉丁语言和东方语言相关的文本)。基于所确定的概率分布信息,可以确定目标文本行区域中的文本。单一字符模型的应用使得文本识别过程更高效和简便。
-
公开(公告)号:CN105580384B
公开(公告)日:2018-07-31
申请号:CN201480053251.4
申请日:2014-09-24
Applicant: 微软技术许可有限责任公司
IPC: H04N21/44 , G06F17/30 , G06K9/32 , H04N21/462 , H04N21/84 , G06F3/0488
CPC classification number: G06F3/04883 , G06F3/017 , G06F3/04842 , G06F17/30253 , G06F17/30796 , H04N21/44008 , H04N21/4622 , H04N21/84
Abstract: 些实施方式可以在触摸屏显示器上呈现包括视频的媒体文件。可以检测在触摸屏显示器上执行的用户手势。该用户手势可以包括下面中的种:点击手势、滑动手势、或者“点击并按住以及在按住同时进行拖动”的手势。可以确定由用户手势所选定的文本。可以至少部分地基于由用户手势所选定的文本自动地执行个或多个后续动作。
-
公开(公告)号:CN117581244A
公开(公告)日:2024-02-20
申请号:CN202180097290.4
申请日:2021-04-19
Applicant: 微软技术许可有限责任公司
IPC: G06N20/00
Abstract: 在本公开的实施例中,提供了一种用于利用逐区块模型更新滤波并行化基于矩的优化的方案。主节点向多个工作节点提供针对训练周期s的全局模型参数和全局矩参数,并从工作节点接收由工作节点执行并行的基于矩的优化生成的多个局部模型参数和多个局部矩参数。全局模型参数和全局矩参数基于相应的接收到的局部参数和针对训练周期的模型更新信息来更新。更新的全局模型参数和更新的全局矩参数随后被提供给工作节点,用于针对随后的训练周期并行执行基于矩的优化。本公开的实施例可以实现训练过程的更好和更快的收敛。
-
公开(公告)号:CN115004261A
公开(公告)日:2022-09-02
申请号:CN202080093448.6
申请日:2020-01-17
Applicant: 微软技术许可有限责任公司
IPC: G06V30/148 , G06V20/70
Abstract: 本公开的实现提供了用于文本行检测的解决方案。在该解决方案中,从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像的图像特征表示或图像的语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式,通过检测文本区域并且基于其特征表示确定其链接关系,可以提高检测各种图像中的文本行的准确性和效率。
-
-
-
-
-
-
-
-
-