检测和提取图像文档组件来创建流文档

    公开(公告)号:CN106104570B

    公开(公告)日:2019-10-25

    申请号:CN201580012985.2

    申请日:2015-03-09

    Abstract: 检测和提取图像文档的一个或多个组件以根据图像文档创建流文档。图像文档的组件可以包括文本、一条或多条路径以及一个或多个图像。可以利用光学字符识别(OCR)检测文本,并可以二值化图像文档。可以从二值化图像文档提取检测出的文本,以使得能够检测路径,然后其可以从二值化图像文档中提取,以使得能够检测图像。在一些例子中,类似于文本和路径,可以从二值化图像文档中提取图像。提取出的文本、路径和/或图像可以存储于数据库中,并可以被取回以便创建流文档,其更好地适应各种读取体验并提供可编辑的文档。

    检测和提取图像文档组件来创建流文档

    公开(公告)号:CN106104570A

    公开(公告)日:2016-11-09

    申请号:CN201580012985.2

    申请日:2015-03-09

    Abstract: 检测和提取图像文档的一个或多个组件以根据图像文档创建流文档。图像文档的组件可以包括文本、一条或多条路径以及一个或多个图像。可以利用光学字符识别(OCR)检测文本,并可以二值化图像文档。可以从二值化图像文档提取检测出的文本,以使得能够检测路径,然后其可以从二值化图像文档中提取,以使得能够检测图像。在一些例子中,类似于文本和路径,可以从二值化图像文档中提取图像。提取出的文本、路径和/或图像可以存储于数据库中,并可以被取回以便创建流文档,其更好地适应各种读取体验并提供可编辑的文档。

    推断布局意图
    5.
    发明公开

    公开(公告)号:CN107077458A

    公开(公告)日:2017-08-18

    申请号:CN201580053190.6

    申请日:2015-09-28

    Abstract: 本文描述了用于推断与文档中的明确格式化的文档要素相关联的布局意图的技术。确定具有明确格式化的文档元素的文档的布局类型。一旦文档的布局类型已经确定,则文档中的明确格式化的文档元素的布局意图可以至少部分地基于文档的确定的布局类型来确定。启发式算法和/或机器学习分类器可以确定文档中的明确格式化的文档元素的布局意图。然后使用对文档中的部分或全部明确格式化的文档元素的推断的布局意图来创建基于意图的文档。然后可以将基于意图的文档提供给基于推断的布局意图来呈现的基于意图的呈现或创作应用。

    检测并重构固定格式文档中的从右到左文本方向、连字和变音符号

    公开(公告)号:CN105144147A

    公开(公告)日:2015-12-09

    申请号:CN201480014083.8

    申请日:2014-02-28

    CPC classification number: G06F17/275 G06F17/2223 G06F17/2247

    Abstract: 提供了对固定格式文档中的从右到左的文本方向、从左到右的文本方向、连字和变音符的检测,以用于将固定格式文档重构成流格式文档。固定格式文档的每一文本串被分析以得到方向性。如果文本串包含连字,则将这些连字映射到相应的字符,以在包括其中放置有这些连字的文本串或与这些连字相邻的文本串的其他字符的上下文中实现这些连字的合适阅读次序。每一文本串都是基于确定的文本方向性来收集的,以供重构在流格式文档中。文本的列的合适文本方向性是按与文本的段落中的文本串的合适文本方向性相同的方式来确定的。如果存在与一个或多个字符或符号相关联的变音符号,则可作出关于与每一变音符号相关联的载体字符或符号的确定。

Patent Agency Ranking