字符识别装置及其字符识别方法

    公开(公告)号:CN101789073B

    公开(公告)日:2013-06-26

    申请号:CN200910006036.X

    申请日:2009-01-22

    Abstract: 本发明公开了一种字符识别装置及其字符识别方法。根据本发明的字符识别装置包括:字符识别单元,配置为用于识别字符图像并输出一个或者更多个候选字符和对应的识别置信度分数;注音搜索单元,配置为用于从字典中搜索每个候选字符的注音;注音校验单元,配置为用于通过将每个候选字符的注音与所述字符图像的注音图像相比较计算每个候选字符的类似度分数;一致性评估单元,配置为用于通过组合每个候选字符的识别置信度分数和对应的类似度分数评估每个候选字符的识别分数;以及输出单元,配置为用于根据每个候选字符的评估的识别分数输出识别结果。

    基于微博平台的扩展关键词获取方法和设备

    公开(公告)号:CN103164415A

    公开(公告)日:2013-06-19

    申请号:CN201110410180.7

    申请日:2011-12-09

    Inventor: 张波 孟遥 于浩

    Abstract: 本发明公开了一种基于微博平台的扩展关键词获取方法和设备,该方法包括:条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建步骤,以多个条目作为节点、以各节点之间的关系作为边,计算微博条目图的各节点和各条边的权重,从而构建微博条目图;关键词袋提取步骤,从多个条目提取关键词袋;以及关键词扩展图构建步骤,以所输入的关键词和关键词袋中的各个关键词作为节点、以所输入的关键词与各个关键词之间的关系作为边,计算关键词扩展图的各节点和各条边的权重,从而构建关键词扩展图。根据本发明的实施例,能够实时地获取扩展关键词,提高了检索效率,有利于更高效地获取知识和信息。

    网页内容提取方法和装置
    293.
    发明授权

    公开(公告)号:CN101937438B

    公开(公告)日:2013-06-05

    申请号:CN200910139745.5

    申请日:2009-06-30

    Abstract: 本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。

    产生抽取模板的方法、设备和抽取网页内容的方法和设备

    公开(公告)号:CN101833554B9

    公开(公告)日:2013-04-03

    申请号:CN200910127231.8

    申请日:2009-03-09

    Inventor: 夏迎炬 张姝 于浩

    Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。

    预测给定话题的未来发展趋势的方法和装置

    公开(公告)号:CN102999539A

    公开(公告)日:2013-03-27

    申请号:CN201110279874.1

    申请日:2011-09-13

    Abstract: 本发明涉及预测给定话题的未来发展趋势的方法和装置。该方法包括:确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数;根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题,确定博主到多个过去时间段中的每个过去时间段为止的兴趣;估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度;确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量;根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量,确定到多个过去时间段中的每个过去时间段为止的粉丝指数;以及根据提及次数和粉丝指数,预测给定话题的未来发展趋势。

    字符识别方法和字符识别装置

    公开(公告)号:CN102024138B

    公开(公告)日:2013-01-23

    申请号:CN200910173692.9

    申请日:2009-09-15

    Abstract: 本发明公开了一种字符识别方法和字符识别装置。根据本发明的一个实施例的字符识别方法包括:根据要识别的字符图像中标记字符上的标记的位置和形状特征提取所述标记的部分标记像素;通过包含具有相同方向的相邻像素将所述提取的部分标记像素扩展为标记线段;获取要识别的所述字符图像的细化图像;沿着所述细化图像的轨迹将所述扩展的标记线段生长为识别的标记;将所述识别的标记与所述字符图像分离;以及识别所述分离的字符图像。

    一种获取韵律边界信息的方法及系统

    公开(公告)号:CN102881282A

    公开(公告)日:2013-01-16

    申请号:CN201110204282.3

    申请日:2011-07-15

    Inventor: 张洁 孟遥 于浩

    Abstract: 本发明实施例公开了一种获取韵律边界信息的方法及系统,其中,所述方法包括:获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。通过本发明,能够有效地获取到韵律边界信息,进而提高语音合成结果的自然度。

    图像标注方法及其装置
    298.
    发明公开

    公开(公告)号:CN102880612A

    公开(公告)日:2013-01-16

    申请号:CN201110197235.0

    申请日:2011-07-14

    Inventor: 曹琼 刘汝杰 于浩

    Abstract: 本发明实施例提供一种图像标注方法及装置,该图像标注方法包括:为输入图像获取初始的包括多个标签的标签集;计算输入图像的标签集与存储在数据库中的比较图像的标签集之间的基于标签集的相似度;将基于标签集的相似度和基于视觉的相似度进行合并计算,以获得输入图像和比较图像的合并相似度;基于合并相似度更新输入图像的标签集。通过本发明实施例,可以同时考虑图像的低级特征和高级语义,提高图像标注的准确度;并且实现标签自动标注,提高标注的效率。

    图像处理方法、图像处理装置及扫描仪

    公开(公告)号:CN102833459A

    公开(公告)日:2012-12-19

    申请号:CN201110159926.1

    申请日:2011-06-15

    CPC classification number: G06T7/12

    Abstract: 提供一种图像处理方法和图像处理装置。该图像处理方法包括:确定图像中前景对象的边缘图;从所述边缘图得出边界线的候选,从所述边界线的候选中确定边界线,所述边界线限定前景对象中特定对象的边界;去除位于所述边界线以外、除所述特定对象之外的其他前景对象。该方法可用来去除拍摄的图像中特定对象边界外的其他对象的图像,例如手部。利用根据本发明实施例的图像处理方法,可以准确地确定图像中特定对象的边界,由此去除边界之外的其他对象的部分,为后续的其他图像处理提供良好的基础。

    一种基于多示例学习的检索方法及系统

    公开(公告)号:CN102831129A

    公开(公告)日:2012-12-19

    申请号:CN201110171932.9

    申请日:2011-06-16

    Abstract: 本发明实施例公开了一种基于多示例学习的检索方法及系统,其中,所述方法包括:获取训练包以及训练包中的训练示例,所述训练包中包括正训练包;为所述正训练包中的每一个训练示例生成权值,该权值的绝对大小代表相应的训练示例能够反映用户查询语义的程度;针对训练包以及测试包中的所有示例,利用所述正训练包中各训练示例的权值,得到各个测试示例的排序分值;根据测试包中各个测试示例的排序分值,确定各个测试包的排序分值,并根据所述测试包的排序分值确定检索结果。通过本发明,能够使得正训练包中的示例提供的信息得到更为充分的利用,提高检索性能。

Patent Agency Ranking