基于图像内容的关键词搜索方法和装置

    公开(公告)号:CN101520783A

    公开(公告)日:2009-09-02

    申请号:CN200810080943.4

    申请日:2008-02-29

    Abstract: 本发明提供了一种基于图像内容的关键词搜索方法和装置。该关键词搜索装置在所输入的文档图像中搜索并定位所输入的关键词,该关键词搜索装置包括:整体匹配单元,该整体匹配单元从所述文档图像中提取多个候选关键词图像区域,提取所述多个候选关键词图像区域的图像特征,将所述图像特征与所述关键词的特征进行匹配,以获得与所述多个候选关键词图像区域相对应的匹配距离;校验单元,该校验单元对匹配距离小的前N个候选关键词图像区域进行识别,计算识别候选和所述关键词之间的校验距离;过滤单元,该过滤单元计算所述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距离大的候选关键词图像区域。

    标题抽取装置和方法
    22.
    发明授权

    公开(公告)号:CN100501760C

    公开(公告)日:2009-06-17

    申请号:CN01135946.3

    申请日:1996-09-04

    Inventor: 胜山裕 直井聪

    CPC classification number: G06K9/00469

    Abstract: 一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文档图象的关键字。

    图像积累设备与方法
    23.
    发明授权

    公开(公告)号:CN100422990C

    公开(公告)日:2008-10-01

    申请号:CN03132852.0

    申请日:1997-12-26

    CPC classification number: G06K9/2054 G06K2209/01 Y10S707/99936

    Abstract: 管理信息提取设备,它在表格形式学习过程中学习文件的分格线结构以及用户明确的管理信息如标题等的位置,并将它们存储于布局词典中。作业中,使从输入文件的图像中提取出的分格线结构与上述布局词典中文件内的分格线结构匹配。然后参考此布局词典中的位置信息而从输入文件中提取管理信息。

    透视变形文档图像的校正装置和校正方法

    公开(公告)号:CN101267493A

    公开(公告)日:2008-09-17

    申请号:CN200710088355.0

    申请日:2007-03-16

    CPC classification number: G06K9/3283 G06K2009/363

    Abstract: 本发明提供了透视变形文档图像的校正装置和方法。所述校正装置包括:水平消失点确定单元,用于检测所述透视变形文档图像的水平消失点;垂直消失点确定单元,用于检测所述透视变形文档图像的垂直消失点;透视变形校正变换单元,用于对所述透视变形文档图像进行校正;其中所述水平消失点确定单元包括直接水平线段检测单元和间接水平线段检测单元以及水平消失点检测单元,所述水平消失点检测单元根据直接水平线段检测单元所检测出的直接的水平线段和间接水平线段检测单元检测出的间接的水平线段检测水平消失点。

    生成劣化字符图像的方法和装置

    公开(公告)号:CN1734472A

    公开(公告)日:2006-02-15

    申请号:CN200410058171.6

    申请日:2004-08-13

    CPC classification number: G06K9/036 G06K9/3266 G06K9/6255 G06K2209/01

    Abstract: 本发明提供了一种用于在不同劣化水平下自动生成劣化字符图像的方法和装置,在本发明中,首先将字符图像绘制在景物平面上;根据不同的参数对景物平面进行平移和旋转;根据不同的参数确定字符图像在图像平面的投影区域;生成像素区域掩码;并且通过超级采样生成最终的劣化图像。从而可以在不同的劣化条件下生成各种劣化字符图像。所生成的合成字符可用于光学字符识别(OCR)中的性能评定和训练数据的扩充。

    标题抽取装置及其方法
    29.
    发明授权

    公开(公告)号:CN1220163C

    公开(公告)日:2005-09-21

    申请号:CN01135945.5

    申请日:1996-09-04

    Inventor: 胜山裕 直井聪

    CPC classification number: G06K9/00469

    Abstract: 一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文挡图象的关键字。

    用于从文档图象抽取标题的标题抽取设备及方法

    公开(公告)号:CN1220162C

    公开(公告)日:2005-09-21

    申请号:CN01135944.7

    申请日:1996-09-04

    Inventor: 胜山裕 直井聪

    CPC classification number: G06K9/00469

    Abstract: 一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。在表格式文档的情形下,该标题抽取装置可从表的内部抽取一个标题矩形。从标题矩形所抽取的字符通过字符识别处理用作为文档图象的关键字。

Patent Agency Ranking