-
公开(公告)号:CN102855264B
公开(公告)日:2015-11-25
申请号:CN201110192577.3
申请日:2011-07-01
Applicant: 富士通株式会社
Abstract: 本申请涉及文档处理方法及其装置,其中对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。
-
公开(公告)号:CN102855264A
公开(公告)日:2013-01-02
申请号:CN201110192577.3
申请日:2011-07-01
Applicant: 富士通株式会社
Abstract: 本申请涉及文档处理方法及其装置,其中对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。
-
公开(公告)号:CN102968610B
公开(公告)日:2016-03-30
申请号:CN201110270388.3
申请日:2011-08-31
Applicant: 富士通株式会社
Abstract: 本申请提供一种收据图像处理方法和设备,该方法包括:根据特征信息检测收据图像中表示金额的金额数字,其中特征信息包括金额在收据图像中的位置信息和/或金额本身的符号特征信息;根据金额数字来识别收据图像中包含金额数字的特征行;以及基于特征行的位置分布,分别将收据图像中的各个文本行分组到若干重复块中,其中若干重复块彼此之间相似。
-
-
公开(公告)号:CN102024138B
公开(公告)日:2013-01-23
申请号:CN200910173692.9
申请日:2009-09-15
Applicant: 富士通株式会社
Abstract: 本发明公开了一种字符识别方法和字符识别装置。根据本发明的一个实施例的字符识别方法包括:根据要识别的字符图像中标记字符上的标记的位置和形状特征提取所述标记的部分标记像素;通过包含具有相同方向的相邻像素将所述提取的部分标记像素扩展为标记线段;获取要识别的所述字符图像的细化图像;沿着所述细化图像的轨迹将所述扩展的标记线段生长为识别的标记;将所述识别的标记与所述字符图像分离;以及识别所述分离的字符图像。
-
公开(公告)号:CN102208022A
公开(公告)日:2011-10-05
申请号:CN201010137689.4
申请日:2010-03-31
Applicant: 富士通株式会社
Abstract: 本发明公开了一种遮挡字符恢复装置及其方法、以及一种遮挡字符识别装置及其方法。根据本发明的遮挡字符恢复方法包括:根据包括要被恢复的遮挡字符在内的目标字符的笔划宽度计算图像块尺寸;在包括目标字符的输入图像的目标区域中标记源区域;针对源区域中的像素生成参考图像块,其中将源区域中的每一个像素作为一个参考图像块的中心;提取要被填充的输入图像的前景的边界;针对前景边界上的每一个像素,根据以该像素为中心的图像块的复杂度,计算填充优先权;使用参考图像块中最相似的图像块,填充以具有最高优先权的像素为中心的图像块;以及如果前景没有全部填充完毕,则重复执行提取要被填充的输入图像的前景的边界及随后的处理。
-
公开(公告)号:CN102024138A
公开(公告)日:2011-04-20
申请号:CN200910173692.9
申请日:2009-09-15
Applicant: 富士通株式会社
Abstract: 本发明公开了一种字符识别方法和字符识别装置。根据本发明的一个实施例的字符识别方法包括:根据要识别的字符图像中标记字符上的标记的位置和形状特征提取所述标记的部分标记像素;通过包含具有相同方向的相邻像素将所述提取的部分标记像素扩展为标记线段;获取要识别的所述字符图像的细化图像;沿着所述细化图像的轨迹将所述扩展的标记线段生长为识别的标记;将所述识别的标记与所述字符图像分离;以及识别所述分离的字符图像。
-
-
-
-
-
-