数据处理方法和数据处理设备

    公开(公告)号:CN103514192B

    公开(公告)日:2017-03-01

    申请号:CN201210212254.0

    申请日:2012-06-21

    Abstract: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

    确定语料与实体的相关性的方法和装置及分类器训练方法

    公开(公告)号:CN103514194B

    公开(公告)日:2016-08-17

    申请号:CN201210212662.6

    申请日:2012-06-21

    Inventor: 张姝 孟遥 于浩

    Abstract: 本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。

    一种分批聚类方法和系统
    73.
    发明授权

    公开(公告)号:CN102867006B

    公开(公告)日:2016-04-13

    申请号:CN201110189562.1

    申请日:2011-07-07

    Abstract: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。

    多数据源的信息处理装置、服务器及方法

    公开(公告)号:CN105335378A

    公开(公告)日:2016-02-17

    申请号:CN201410291263.2

    申请日:2014-06-25

    Abstract: 本发明实施例提供一种多数据源的信息处理装置、服务器及方法,该装置包括:第一判定单元,用于对至少两个数据源中的信息进行同一实体的判定;链接单元,用于将至少两个数据源中的实体链接到预先设定的外部资源中;第一扩展单元,用于根据外部资源中的信息对实体的属性进行扩展;第二判定单元,用于判断属性扩展后的信息是否满足预先设定的条件,当不满足预先设定的条件时,将属性扩展后的信息用于进行所述同一实体的判定,当满足预先设定的条件时,将属性扩展后的信息输出。通过对同一实体进行判定以及链接外部资源进行扩展属性,并且以迭代的方式进行上述判定和链接,能够有效的进行多数据源的信息整合,提高信息的准确性和全面性。

    人名单元词典扩充方法、人名语言识别方法和装置

    公开(公告)号:CN105095322A

    公开(公告)日:2015-11-25

    申请号:CN201410221701.8

    申请日:2014-05-23

    Abstract: 公开了人名单元词典扩充方法、人名语言识别方法和装置,该人名单元词典扩充方法包括:计算各个词项在预定多个语言的人名单元词典中的初始权重;将人名划分为人名单元,将划分的人名单元与各个词典中的词项进行匹配以确定匹配人名单元和未匹配人名单元;根据匹配人名单元在各个词典中的权重来确定包含匹配人名单元的人名在各个词典中的权重;根据包含未匹配人名单元的所有人名在各个词典中的权重计算未匹配人名单元在各个词典中的权重,并将未匹配人名单元添加到词典中;根据包含匹配人名单元的所有人名在各个词典中的权重更新匹配人名单元在各个词典中的权重;重复上述处理直至满足预定条件,从而得到带权重标注的人名单元词典。

    数据处理装置、数据处理方法以及电子设备

    公开(公告)号:CN104111917A

    公开(公告)日:2014-10-22

    申请号:CN201310138955.9

    申请日:2013-04-19

    Inventor: 张姝 孟遥 于浩

    CPC classification number: G06F17/28

    Abstract: 本发明提供了数据处理装置、数据处理方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述数据处理装置包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。本发明的上述技术能够应用于数据处理领域。

    一种对互联网上的同名人物信息进行分类的方法及装置

    公开(公告)号:CN102831128A

    公开(公告)日:2012-12-19

    申请号:CN201110171903.2

    申请日:2011-06-15

    Abstract: 本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。

    产生抽取模板的方法、设备和抽取网页内容的方法和设备

    公开(公告)号:CN101833554B

    公开(公告)日:2012-09-26

    申请号:CN200910127231.8

    申请日:2009-03-09

    Inventor: 夏迎炬 张姝 于浩

    Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。

    从评论性文本中提取评价性信息的方法和装置

    公开(公告)号:CN102163189A

    公开(公告)日:2011-08-24

    申请号:CN201010120101.4

    申请日:2010-02-24

    Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

    生成与维护网页内容抽取模板的方法和设备

    公开(公告)号:CN102073654A

    公开(公告)日:2011-05-25

    申请号:CN200910226108.1

    申请日:2009-11-20

    Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。

Patent Agency Ranking