-
公开(公告)号:CN104067293B
公开(公告)日:2017-07-25
申请号:CN201280067911.5
申请日:2012-01-23
Applicant: 微软技术许可有限责任公司
IPC: G06K9/00
CPC classification number: G06F17/211 , G06K9/00469
Abstract: 在本文中描述并在附图中示出了矢量图分类引擎及相关联的用于对固定格式文档中的矢量图进行分类的方法。矢量图分类引擎定义用于对从固定格式文档中解析作为字体、文本、段落、表、以及页面效果(如阴影、边界、下划线、以及删除线)等的矢量图进行分类的流水线。没有被以其他方式分类的矢量图被指定为基本图。通过按所选次序对检测操作进行排序,最小化或消除了误分类。
-
公开(公告)号:CN105247509B
公开(公告)日:2018-11-23
申请号:CN201480026958.6
申请日:2014-02-28
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/275 , G06F17/212 , G06F17/214 , G06F17/2223 , G06F17/2715 , G06K9/00463 , G06K9/3208
Abstract: 提供了东亚布局特征的检测和东亚布局特征的重构。固定格式文档中的垂直书写的文本被检测并旋转以供布局分析。在布局分析之后,经旋转的文本被旋转回去并在流格式文档中重构。当多个字符水平地被书写在文本的垂直行中时,垂直重叠文本串被检测,并分派作为垂直中的水平文本,并被重建为流格式文档中的垂直中的水平文本。文本的行被分析以寻找ruby行的属性,并被分派作为与ruby基础行中的对应文本相关联的ruby文本,并在流格式文档中被重建为ruby文本。在固定格式文档中的文本被分析用于特定东亚语言的检测,使得该语言的字体在流格式文档中被指定。
-
公开(公告)号:CN106796518A
公开(公告)日:2017-05-31
申请号:CN201580053226.0
申请日:2015-09-29
Applicant: 微软技术许可有限责任公司
Abstract: 本文描述了用于获得并处理基于意图的反馈的技术。可通过利用一个或多个布局来生成创作的内容。所生成的布局随后可用于将内容呈现给作者或其它用户。作者还可以提供反馈以请求对所生成的布局进行调整或重新生成。反馈可以包括覆盖反馈和/或意图反馈,所述覆盖反馈覆盖在布局中所使用的意图解释;所述意图反馈改变用于所述内容数据的意图数据或添加更多用于所述内容数据的意图数据。
-
公开(公告)号:CN107077458A
公开(公告)日:2017-08-18
申请号:CN201580053190.6
申请日:2015-09-28
Applicant: 微软技术许可有限责任公司
Abstract: 本文描述了用于推断与文档中的明确格式化的文档要素相关联的布局意图的技术。确定具有明确格式化的文档元素的文档的布局类型。一旦文档的布局类型已经确定,则文档中的明确格式化的文档元素的布局意图可以至少部分地基于文档的确定的布局类型来确定。启发式算法和/或机器学习分类器可以确定文档中的明确格式化的文档元素的布局意图。然后使用对文档中的部分或全部明确格式化的文档元素的推断的布局意图来创建基于意图的文档。然后可以将基于意图的文档提供给基于推断的布局意图来呈现的基于意图的呈现或创作应用。
-
公开(公告)号:CN104067292B
公开(公告)日:2017-05-03
申请号:CN201280067895.X
申请日:2012-01-23
Applicant: 微软技术许可有限责任公司
Inventor: M·拉扎里维克 , M·拉斯科维克 , A·奥布尔简 , V·佩特洛维克坦科维克
CPC classification number: G06F17/2264 , G06F17/30253 , G06F17/30259 , G06K9/00463 , G06K9/342 , G06K2209/01
Abstract: 公式检测引擎及相关联的方法。公式检测引擎通过标识公式种子来定位固定格式文档部分中的公式。公式检测引擎创建并扩展公式种子周围的边界以限定公式区域。为了消除与周围普通文本的重叠,基于公式元素之间的垂直位置和水平间隔来将公式区域分成多个公式区域。在进行垂直排序后,合并水平重叠的公式区域以便将公式重构为可流动元素。
-
公开(公告)号:CN104094282B
公开(公告)日:2017-11-21
申请号:CN201280067898.3
申请日:2012-01-23
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/245 , G06K9/00463 , G06K9/34 , G06K2209/01
Abstract: 用于标识出现在从固定格式文档提取的数据中的无边框表格的无边框表格检测引擎和相关联的方法。由于缺乏可视的边框,对无边框表格的可信赖的自动化检测是困难的。无边框表格检测引擎使用空白区而非内容来检测无边框表格候选。通过应用试探法分析,无边框表格检测引擎丢弃具有缺乏表格的足够特征且不可能是有效的无边框表格的布局的无边框表格候选。
-
公开(公告)号:CN105247509A
公开(公告)日:2016-01-13
申请号:CN201480026958.6
申请日:2014-02-28
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/275 , G06F17/212 , G06F17/214 , G06F17/2223 , G06F17/2715 , G06K9/00463 , G06K9/3208
Abstract: 提供了东亚布局特征的检测和东亚布局特征的重构。固定格式文档中的垂直书写的文本被检测并旋转以供布局分析。在布局分析之后,经旋转的文本被旋转回去并在流格式文档中重构。当多个字符水平地被书写在文本的垂直行中时,垂直重叠文本串被检测,并分派作为垂直中的水平文本,并被重建为流格式文档中的垂直中的水平文本。文本的行被分析以寻找ruby行的属性,并被分派作为与ruby基础行中的对应文本相关联的ruby文本,并在流格式文档中被重建为ruby文本。在固定格式文档中的文本被分析用于特定东亚语言的检测,使得该语言的字体在流格式文档中被指定。
-
公开(公告)号:CN105144147A
公开(公告)日:2015-12-09
申请号:CN201480014083.8
申请日:2014-02-28
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/275 , G06F17/2223 , G06F17/2247
Abstract: 提供了对固定格式文档中的从右到左的文本方向、从左到右的文本方向、连字和变音符的检测,以用于将固定格式文档重构成流格式文档。固定格式文档的每一文本串被分析以得到方向性。如果文本串包含连字,则将这些连字映射到相应的字符,以在包括其中放置有这些连字的文本串或与这些连字相邻的文本串的其他字符的上下文中实现这些连字的合适阅读次序。每一文本串都是基于确定的文本方向性来收集的,以供重构在流格式文档中。文本的列的合适文本方向性是按与文本的段落中的文本串的合适文本方向性相同的方式来确定的。如果存在与一个或多个字符或符号相关联的变音符号,则可作出关于与每一变音符号相关联的载体字符或符号的确定。
-
-
-
-
-
-
-