-
公开(公告)号:CN100351839C
公开(公告)日:2007-11-28
申请号:CN200410004871.7
申请日:2004-02-10
Applicant: 株式会社日立制作所
Abstract: 本发明作为对纸质文档以及文档图像的检索·阅览方法,提出应用文档构造分析技术以及文字识别技术检索·阅览文档图像组的方法,通过把OCR与文档处理装置分离,作为OCR的输出形态,采用保持文字行抽取、文字划分以及文字识别的多重假定的数据(读取假定数据)和具有文档图像的网格线信息或框信息或文字行信息或阅览属性信息等的文档构造数据,构成根据OCR附加数据进行从印刷铅字以及手写文字串的重要关键字抽取以及文档检索,进而利用文档构造数据进行符合阅览者意图的文档显示功能,提供具有高度性能的文档图像检索·阅览系统。
-
公开(公告)号:CN100351847C
公开(公告)日:2007-11-28
申请号:CN03104955.9
申请日:2003-02-28
Applicant: 株式会社日立制作所
Abstract: 本发明提供一种作为对纸文件及文件图像进行文件检索的OCR装置、文件检索系统及文件检索手段,该手段是应用文字识别技术,检索含有给定关键词的文件群的方法。本发明的发明目的是通过提供一种系统,该系统将OCR装置和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的机能,实现必要的文件检索和文件分类。
-
公开(公告)号:CN1612154A
公开(公告)日:2005-05-04
申请号:CN200410004871.7
申请日:2004-02-10
Applicant: 株式会社日立制作所
IPC: G06K9/62
Abstract: 本发明作为对纸质文档以及文档图像的检索·阅览方法,提出应用文档构造分析技术以及文字识别技术检索·阅览文档图像组的方法,通过把OCR与文档处理装置分离,作为OCR的输出形态,采用保持文字行抽取、文字划分以及文字识别的多重假定的数据(读取假定数据)和具有文档图像的网格线信息或框信息或文字行信息或阅览属性信息等的文档构造数据,构成根据OCR附加数据进行从印刷铅字以及手写文字串的重要关键字抽取以及文档检索,进而利用文档构造数据进行符合阅览者意图的文档显示功能,提供具有高度性能的文档图像检索·阅览系统。
-
公开(公告)号:CN1503193A
公开(公告)日:2004-06-09
申请号:CN03104955.9
申请日:2003-02-28
Applicant: 株式会社日立制作所
Abstract: 本发明提供一种作为对纸文件及文件图像进行文件检索的OCR装置、文件检索系统及文件检索手段,该手段是应用文字识别技术,检索含有给定关键词的文件群的方法。本发明的发明目的是通过提供一种系统,该系统将OCR装置和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的机能,实现必要的文件检索和文件分类。
-
-
-