人物搜索方法和设备
    11.
    发明授权

    公开(公告)号:CN102999538B

    公开(公告)日:2015-09-30

    申请号:CN201110279602.1

    申请日:2011-09-08

    Abstract: 本发明提供了一种人物搜索方法和设备,该方法包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本发明的实施例,能够提高聚类性能,并且能够提高召回率,从而改善了用户体验。

    一种对互联网上的同名人物信息进行分类的方法及装置

    公开(公告)号:CN102831128B

    公开(公告)日:2015-03-25

    申请号:CN201110171903.2

    申请日:2011-06-15

    Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。

    信息处理方法和装置以及机构名规范化方法和设备

    公开(公告)号:CN104281570A

    公开(公告)日:2015-01-14

    申请号:CN201310270868.9

    申请日:2013-07-01

    Inventor: 张姝 孟遥 于浩

    CPC classification number: G06F17/30289 G06F17/2795

    Abstract: 公开了一种信息处理方法和装置以及机构名规范化方法和设备,该信息处理方法包括:机构名拆分步骤,用于根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析步骤,用于分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及机构名存储步骤,用于将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。根据本公开的实施例,能够更高效准确地对机构名进行规范化,从而有利于文献统一管理和快速检索。

    音节划分方法和音节划分设备

    公开(公告)号:CN104239289A

    公开(公告)日:2014-12-24

    申请号:CN201310252998.X

    申请日:2013-06-24

    Abstract: 本发明公开了音节划分方法和音节划分设备。根据本发明的音节划分方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。

    数据处理方法和数据处理设备

    公开(公告)号:CN103514192A

    公开(公告)日:2014-01-15

    申请号:CN201210212254.0

    申请日:2012-06-21

    CPC classification number: G06F17/30864

    Abstract: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

    人物搜索方法和设备
    16.
    发明公开

    公开(公告)号:CN102999538A

    公开(公告)日:2013-03-27

    申请号:CN201110279602.1

    申请日:2011-09-08

    Abstract: 本发明提供了一种人物搜索方法和设备,该方法包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。根据本发明的实施例,能够提高聚类性能,并且能够提高召回率,从而改善了用户体验。

    用于名称消岐聚类的装置和方法

    公开(公告)号:CN102654881A

    公开(公告)日:2012-09-05

    申请号:CN201110056065.4

    申请日:2011-03-03

    Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:代表相似度确定单元,用于确定名称训练集的代表相似度,该代表相似度为该名称训练集中的文本间相似度的代表值;优选相似度阈值选择单元,用于采用不同的相似度阈值对该名称训练集进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及函数拟合单元,用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数。

    评价对象聚类方法和装置

    公开(公告)号:CN102375848A

    公开(公告)日:2012-03-14

    申请号:CN201010260750.4

    申请日:2010-08-17

    Abstract: 本发明涉及一种用于将评价对象聚类的方法和装置。所述方法包括:基于语素提取评价对象的语素特征;基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;以及利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。

    提取商品属性信息的方法和设备

    公开(公告)号:CN101968788A

    公开(公告)日:2011-02-09

    申请号:CN200910164414.7

    申请日:2009-07-27

    Abstract: 公开了一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备。所述方法包括:a)对评论信息执行预处理;b)从预处理后的评论信息中提取出候选商品属性信息,并将出现次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;和d)根据预定过滤方法,对所述高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。利用根据本发明实施例的方法和设备,可无指导地自动提取商品属性信息,而且在保证提取高频商品属性信息的同时,兼顾了商品属性信息提取过程中可能漏掉的非高频商品属性信息。

Patent Agency Ranking