用于文档图像的自适应二值化方法和设备

    公开(公告)号:CN101727583B

    公开(公告)日:2013-03-20

    申请号:CN200810171184.2

    申请日:2008-10-22

    Abstract: 用于文档图像的自适应二值化方法和设备。自适应二值化设备包含:估计器,根据在行和列中的一个方向上文档图像的每一组像素,估计该组的每个像素的第一背景灰度级,以获得文档图像的第一背景图像;计算器,针对文档图像的每个像素,计算以该像素为中心的第一像素区域中所有像素到第一背景图像的平均距离r,并计算该像素的第一背景灰度级和与平均距离r正相关的量d之间的差,以作为该像素的第一阈值;和提取器,根据第一阈值从文档图像中提取出第一二值化图像,其中,第一背景灰度级的估计所基于的像素区间和第一像素区域的尺寸大于预定尺寸。因而,能够去除文档图像中的水平竖直方向上的线条,以利于提高字符识别率。

    关键字识别方法和装置
    22.
    发明授权

    公开(公告)号:CN101571921B

    公开(公告)日:2012-07-25

    申请号:CN200810091299.0

    申请日:2008-04-28

    Abstract: 一种关键词识别方法和装置。其对多幅包含共有关键词的图案或文档中包含的共有关键词进行识别,首先根据包含共有关键词的区域的灰度值生成二值前景累积图,并确定可能的关键字分割段,识别出对应于每个可能的关键字分割段的识别字符,利用标准关键词中包含的关键字构成的关键字组合对与上述识别字符构成的关键字匹配对的对应关系、估计关键词中心的位置,利用对应于上述关键词中心的关键字匹配对生成一个图,利用图中的最大完全子图确定识别字符中正确的关键字,并识别出遗漏关键字和粘连关键字,判定上述共有关键词中包含了具有最大识别比例的关键词。

    基于图像内容的关键词搜索方法和装置

    公开(公告)号:CN101520783B

    公开(公告)日:2011-12-21

    申请号:CN200810080943.4

    申请日:2008-02-29

    Abstract: 本发明提供了一种基于图像内容的关键词搜索方法和装置。该关键词搜索装置在所输入的文档图像中搜索并定位所输入的关键词,该关键词搜索装置包括:整体匹配单元,该整体匹配单元从所述文档图像中提取多个候选关键词图像区域,提取所述多个候选关键词图像区域的图像特征,将所述图像特征与所述关键词的特征进行匹配,以获得与所述多个候选关键词图像区域相对应的匹配距离;校验单元,该校验单元对匹配距离小的前N个候选关键词图像区域进行识别,计算识别候选和所述关键词之间的校验距离;过滤单元,该过滤单元计算所述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距离大的候选关键词图像区域。

    彩色文档图像的分层方法和装置

    公开(公告)号:CN101520845B

    公开(公告)日:2011-11-30

    申请号:CN200810081557.7

    申请日:2008-02-29

    Abstract: 提供了一种彩色文档图像的分层装置和方法。本发明的彩色文档图像分层装置执行如下处理:确定所述文档图像的背景色;将所述文档图像中的每个像素点映射到以所述背景色为原点的RGB空间中,构建反映了所述文档图像的像素点在所述RGB空间中的分布的特征平面;基于所述特征平面中的密度分布将所述特征平面分割为一个以上的区域;基于所述分割结果,将所述文档图像划分为一个以上的图层。

    帐票处理方法、帐票处理装置以及计算机产品

    公开(公告)号:CN101118597B

    公开(公告)日:2010-07-07

    申请号:CN200610166798.2

    申请日:2006-11-30

    CPC classification number: G06K9/00449

    Abstract: 本发明提供了一种帐票处理方法、帐票处理装置以及计算机产品。该帐票处理装置从帐票文件提取版面信息和字符信息。候选提取单元从字符信息提取候选单词。频率数字化单元根据各个元素计算候选单词的出现概率。关系数字化单元计算建立候选单词之间关系的迁移概率。评价单元计算表示各逻辑元素中的候选单词的出现概率的评价值。确定单元根据该评价值,将该元素及其候选单词确定为帐票文件中的元素及其字符串。

    字符识别装置和字符识别方法

    公开(公告)号:CN101515323A

    公开(公告)日:2009-08-26

    申请号:CN200910004255.4

    申请日:2009-02-18

    CPC classification number: G06K9/344 G06K2209/01

    Abstract: 一种字符识别装置,包括:划分机制,用于将图划分为多个部分;候选字符串获取机制,用于组合图的多个部分;以及字符串选择机制,用于选择一个字符串。所述候选字符串获取机制至少包括下述之一:第一机制,用于复制接触相邻字符的字符线,然后将所复制的字符线包括为候选字符串的元素;以及第二机制,用于在多个候选字符串中包括已经移除相邻字符之间的接触字符线的候选字符串、和包含所述接触字符线的候选字符串。

    指定文本行提取方法和装置

    公开(公告)号:CN100514355C

    公开(公告)日:2009-07-15

    申请号:CN200510098628.0

    申请日:2005-09-05

    Abstract: 指定文本行提取方法和装置。本发明的在垂直方向上分离文本行图像的方法,包括:多行判断步骤,判断所述文本行图像是否包含多行文本;行间噪声去除步骤,在判断出所述文本行图像包含多行文本时,进行行间噪声去除。本发明还提供了一种提取指定文本行的方法。

    图像识别装置、图像识别程序和图像识别方法

    公开(公告)号:CN101425141A

    公开(公告)日:2009-05-06

    申请号:CN200810174982.0

    申请日:2008-10-31

    CPC classification number: G06K9/2054 G06K2209/01

    Abstract: 图像识别装置、图像识别程序和图像识别方法。一种图像识别方法,该方法针对将各字符串分别描述为构成逻辑结构的多个逻辑元素的图像,并基于以对应于该逻辑结构的方式设置的逻辑结构模型来识别各逻辑元素,该方法包括以下步骤:收集关于待利用该逻辑结构模型处理的逻辑结构的图像的信息;在以对应于新逻辑结构的方式将该逻辑结构模型更新为新逻辑结构模型时,通过以更新后的逻辑结构模型来处理收集的信息而获得在基于更新后的结构模型针对与更新前的逻辑结构模型相对应的逻辑结构的图像进行识别时的识别结果;比较在利用更新前的逻辑结构模型处理所收集的信息时的识别结果是否和根据更新后的逻辑结构模型所获取的识别结果相匹配;并且在比较的结果为不匹配的情况下,向输出单元输出表示关于更新后的逻辑结构模型的警告的警告信息。

    字符识别装置、字符识别方法及计算机产品

    公开(公告)号:CN101364267A

    公开(公告)日:2009-02-11

    申请号:CN200810108259.2

    申请日:2008-06-05

    CPC classification number: G06K9/2054 G06K9/4671 G06K2209/01

    Abstract: 本发明公开了一种字符识别装置、字符识别方法及计算机产品,该字符识别装置包含哈希表注册单元和识别处理单元。哈希表注册单元创建哈希表,该哈希表将每个部分字符图像的特征表达为每个字符的区域。识别处理单元将输入图像划分为多个部分输入图像,并且计算每个部分输入图像的特征。识别处理单元在哈希表中查找具有与每个部分输入图像的特征相似的特征的部分字符图像。识别处理单元将多个部分输入图像之间的位置关系与多个部分字符图像之间的位置关系进行比较,以判定它们是否匹配,并识别出输入图像的每个区域中的字符。本发明能够以高准确度并高速识别出与任意形状的图案重叠的字符图像。

Patent Agency Ranking