获取预定义字符数据的方法和装置

    公开(公告)号:CN102110103B

    公开(公告)日:2014-04-09

    申请号:CN200910243515.3

    申请日:2009-12-25

    Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。

    中文比较句分类器模型生成、中文比较句识别方法及装置

    公开(公告)号:CN101727462B

    公开(公告)日:2012-04-25

    申请号:CN200810224334.1

    申请日:2008-10-17

    Abstract: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。

    一种从网页中抽取信息的方法及装置

    公开(公告)号:CN101996190A

    公开(公告)日:2011-03-30

    申请号:CN200910090455.6

    申请日:2009-08-12

    Abstract: 本发明公开了一种从网页中抽取信息的方法及装置,用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。该方法包括:查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集,根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系,从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。

    一种词汇语义褒贬获得方法、系统及装置

    公开(公告)号:CN100593783C

    公开(公告)日:2010-03-10

    申请号:CN200710099802.2

    申请日:2007-05-30

    Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

    为文档集自动生成摘要的方法及装置

    公开(公告)号:CN101446940A

    公开(公告)日:2009-06-03

    申请号:CN200710187480.7

    申请日:2007-11-27

    Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤:计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。

    一种基于句子关系图的多文档摘要方法

    公开(公告)号:CN100435145C

    公开(公告)日:2008-11-19

    申请号:CN200610072586.8

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

Patent Agency Ranking