信息处理装置和信息处理方法

    公开(公告)号:CN103377199B

    公开(公告)日:2016-06-29

    申请号:CN201210112493.9

    申请日:2012-04-16

    Abstract: 提供一种信息处理装置和方法。信息处理方法包括:从图片中识别字符串作为备选;响应于得到备选字符串,根据其获取检索词;响应于检索词的获取,使用检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;当作为聚类结果的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。

    图像处理方法和装置
    2.
    发明公开

    公开(公告)号:CN103383732A

    公开(公告)日:2013-11-06

    申请号:CN201210137925.1

    申请日:2012-05-04

    CPC classification number: G06T7/004 G06K9/00442 G06T7/70

    Abstract: 提供了一种图像处理方法和装置。该图像处理方法包括步骤:生成图像的第一尺度的二值图,其中第一尺度小于图像的原始尺度;基于第一尺度的二值图,检测图像中的至少一个文本行;生成图像的第二尺度的二值图,其中第二尺度大于第一尺度;针对每个文本行,计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度,并将相似度低于预定水平的文本行作为噪声去除;针对未被去除的文本行中的一个或更多个,对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及根据所确定的文字取向确定图像的取向。

    信息处理装置和信息处理方法

    公开(公告)号:CN103377199A

    公开(公告)日:2013-10-30

    申请号:CN201210112493.9

    申请日:2012-04-16

    Abstract: 提供一种信息处理装置和方法。信息处理方法包括:从图片中识别字符串作为备选;响应于得到备选字符串,根据其获取检索词;响应于检索词的获取,使用检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;当作为聚类结果的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。

    一种关键词获取方法及装置

    公开(公告)号:CN102779140A

    公开(公告)日:2012-11-14

    申请号:CN201110128161.5

    申请日:2011-05-13

    CPC classification number: G06F17/30253 G06K9/2054 G06K2209/01

    Abstract: 本发明实施例公开了一种关键词获取方法,包括:定位图像中的文字区域,并利用OCR技术识别出所述文字区域中的文字内容;从所识别出的文字内容中,选择第一类待定关键词进行网页搜索;在搜索到的网页中提取第二类待定关键词;以及至少根据所述第二类待定关键词确定所述图像对应的关键词。通过本发明实施例将OCR技术与网页搜索的技术相结合,基于根据OCR技术识别及选择出的第一类待定关键词进行网页搜索,保证了关键词的收敛性,然后基于搜索到的网页选择第二类待定关键词保证了关键词的正确性,从而提高了最终确定的图像对应的关键词的精确度。

    文档处理装置、文档处理方法以及扫描仪

    公开(公告)号:CN103455806B

    公开(公告)日:2017-06-13

    申请号:CN201210177541.2

    申请日:2012-05-31

    CPC classification number: G06K9/18 G06K9/00442 G06K9/3208 G06K2209/01

    Abstract: 本公开提供了一种文档处理设备和设备以及扫描仪。该文档处理装置包括:文本行提取单元,其从所输入的文档中提取文本行;语言分类单元,其确定所输入的文档的语言是否需要进行OCR处理;OCR单元,其在确定需要进行OCR时,通过进行OCR处理来确定OCR置信度;图形特征识别单元,其确定图形特征识别置信度;以及确定单元,其基于图形特征识别置信度以及OCR置信度中的至少一项来确定组合置信度,并且基于组合置信度来确定所输入的文档的朝向。根据本公开的技术方案,可以更好地判断文档的朝向,尤其适合于在文档的图像质量退化时判断文档的朝向。

    图像中文本区域定位方法和装置

    公开(公告)号:CN102855478B

    公开(公告)日:2015-11-25

    申请号:CN201110192175.3

    申请日:2011-06-30

    Abstract: 本发明公开了一种图像中文本区域定位方法和装置。根据本发明的图像中文本区域定位方法包括:估计输入图像中每个像素周围可能存在的文本大小;根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域;从所述候选笔划区域中确定真实笔划区域;以及合并所述真实笔划区域以形成文本区域。

    文档处理装置、文档处理方法以及扫描仪

    公开(公告)号:CN103455806A

    公开(公告)日:2013-12-18

    申请号:CN201210177541.2

    申请日:2012-05-31

    CPC classification number: G06K9/18 G06K9/00442 G06K9/3208 G06K2209/01

    Abstract: 本公开提供了一种文档处理设备和设备以及扫描仪。该文档处理装置包括:文本行提取单元,其从所输入的文档中提取文本行;语言分类单元,其确定所输入的文档的语言是否需要进行OCR处理;OCR单元,其在确定需要进行OCR时,通过进行OCR处理来确定OCR置信度;图形特征识别单元,其确定图形特征识别置信度;以及确定单元,其基于图形特征识别置信度以及OCR置信度中的至少一项来确定组合置信度,并且基于组合置信度来确定所输入的文档的朝向。根据本公开的技术方案,可以更好地判断文档的朝向,尤其适合于在文档的图像质量退化时判断文档的朝向。

    图像中文本区域定位方法和装置

    公开(公告)号:CN102855478A

    公开(公告)日:2013-01-02

    申请号:CN201110192175.3

    申请日:2011-06-30

    Abstract: 本发明公开了一种图像中文本区域定位方法和装置。根据本发明的图像中文本区域定位方法包括:估计输入图像中每个像素周围可能存在的文本大小;根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域;从所述候选笔划区域中确定真实笔划区域;以及合并所述真实笔划区域以形成文本区域。

    文本增强方法及装置、文本提取方法及装置

    公开(公告)号:CN102831579A

    公开(公告)日:2012-12-19

    申请号:CN201110172095.1

    申请日:2011-06-16

    Abstract: 本发明实施例公开了文本增强方法及装置、文本提取方法及装置,所述文本增强方法包括:获取包括一行文本的原始图像;依据所述原始图像中的任一原始像素点到其邻域集中各个邻域像素点的直接差异度和间接差异度,对各个原始像素点的原始亮度值或/和颜色值进行笔画二维滤波,以得到原始图像的滤波后的更新亮度值或/和颜色值,邻域集的范围为以原始像素点为中心且边长为w的正方形,所述w小于所述原始图像的高度;将所述滤波后的更新亮度值或/和颜色值分别替换对应的所述原始亮度值或/和颜色值,以生成与原始图像对应的文本增强图像。通过本发明实施例,可以增强原始图像中包括的文本,以使后续针对该文本增强图像进行的文本提取更为精确和准确。

    挖掘图片中的主题关键词的方法和设备

    公开(公告)号:CN103544186B

    公开(公告)日:2017-03-01

    申请号:CN201210246688.2

    申请日:2012-07-16

    Abstract: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。

Patent Agency Ranking