-
公开(公告)号:CN101551859A
公开(公告)日:2009-10-07
申请号:CN200810090406.8
申请日:2008-03-31
Applicant: 夏普株式会社
CPC classification number: G06K9/00463 , G06K9/00456 , G06K9/38 , G06K9/4647 , G06K2209/01
Abstract: 本发明提供一种图像辨别装置及图像检索装置。预处理部(120)对所输入的图像数据进行2值化,算出整体黑像素比例。在特征抽出部(121)中,检索2值图像数据中所包含的连通区域,并检索外接于该连通区域的外接矩形。对于所检测到的外接矩形,基于外接矩形的大小和矩形黑像素比例,从全部的连通区域中去除规定的连通区域。使用去除了不需要的结合像素之后的剩余的连通区域,来生成以外接矩形的大小为级别、以连通区域数为次数的柱状图。辨别部(122),基于与所生成的柱状图相关联的信息、和上述整体黑像素比例,来辨别所输入的图像数据是文档图像数据还是非文档图像数据。
-
公开(公告)号:CN101354704A
公开(公告)日:2009-01-28
申请号:CN200710129607.X
申请日:2007-07-23
Applicant: 夏普株式会社
CPC classification number: G06F17/30253 , G06K9/723 , G06K2209/01 , G06K2209/011
Abstract: 本发明提供一种字形特征字典制作装置和具备该装置的文档图像处理装置,其中,抽取出文档图像中的文字数为M个的文字列的图像,并将其分割成单个文字而抽出各文字图像的图像特征,基于该图像特征,从将文字图像的图像特征以单个文字为单位储存着的字形特征字典(15)中,按匹配度从高到低的顺序,选择出N个文字图像作为候补文字,其中N为N>1的整数,制作所抽取出的文字列的文字数M×N维的第1索引矩阵。对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,制作将候补文字列调整成有意义的文字列的第2索引矩阵,并用于检索中。由此,可使检索精度进一步提高。
-