英文事件触发词抽取方法和系统

    公开(公告)号:CN109325228A

    公开(公告)日:2019-02-12

    申请号:CN201811093486.2

    申请日:2018-09-19

    Applicant: 苏州大学

    Abstract: 本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。

    一种面向云计算的租户调整方法及系统

    公开(公告)号:CN104135535B

    公开(公告)日:2017-10-31

    申请号:CN201410399793.9

    申请日:2014-08-14

    Applicant: 苏州大学

    Abstract: 本发明公开了一种面向云计算的租户调整方法及系统,通过基于SLA中多种效益的计算,当出现一个或多个虚拟机不满足负载需求时,对这些调整虚拟机上的租户的分布进行调整,在保证系统效益的情况下,将租户迁移至其他虚拟机上,实现本发明目的。本发明通过动态调整每个虚拟机中的租户,使得在有限数据库资源的情况下,保证租户的SLA质量需求及良好的系统效益。

    一种中文事件时序关系识别方法及系统

    公开(公告)号:CN105573977A

    公开(公告)日:2016-05-11

    申请号:CN201510698260.5

    申请日:2015-10-23

    Applicant: 苏州大学

    Abstract: 本发明提供一种中文事件时序关系识别方法及系统,对需要识别事件时序关系的原始文本的每个文档进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,并根据标注语料特征集合中各个事件对的特征,训练最大熵事件时序关系识别模型;再利用最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。

    一种微博信息的压缩编码和解码的方法及装置

    公开(公告)号:CN102508824B

    公开(公告)日:2013-04-03

    申请号:CN201110298118.3

    申请日:2011-09-29

    Applicant: 苏州大学

    Abstract: 本发明实施例公开了微博信息的压缩编码和解码的方法及装置,本发明实施例通过设置中文词典、中文符号表和英文字典对使用UCS-2编码的微博进行压缩再编码,其中压缩编码的方法概括为:识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;根据中文词典和中文符号表,对中文字符段进行压缩再编码;根据英文字典,对英文字符段进行压缩再编码;生成压缩编码微博。根据本发明实施例,可用2个字节表示原来用4个以上字节表示的中文词组和英文单词,节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。

    一种中文事件的抽取方法及系统

    公开(公告)号:CN102693219A

    公开(公告)日:2012-09-26

    申请号:CN201210182651.8

    申请日:2012-06-05

    Applicant: 苏州大学

    Abstract: 本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。

    一种中文事件触发词的抽取系统及方法

    公开(公告)号:CN104331480B

    公开(公告)日:2017-09-29

    申请号:CN201410626003.6

    申请日:2014-11-07

    Applicant: 苏州大学

    Abstract: 本发明提供一种中文事件触发词的抽取系统及方法。所述系统包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块及触发词识别模块。本发明根据角色语义是事件语义的表示形式之一,提供了利用核心角色和辅助角色来表示角色语义的方法,并用于中文事件触发词的抽取。与现有最好的中文事件抽取方法和系统相比,本发明提供的方法对于中文事件触发词的抽取性能有了明显提升。

    一种中文事件联合推理方法和系统

    公开(公告)号:CN106055536A

    公开(公告)日:2016-10-26

    申请号:CN201610333246.X

    申请日:2016-05-19

    Applicant: 苏州大学

    CPC classification number: G06F17/2775 G06N5/04

    Abstract: 本发明提出篇章级别的中文事件联合推理方法和系统,该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取,减少传统管道模型中的级联错误。在实现方法上,本发明采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系。本发明的方法和系统,与现有方法和系统相比,识别性能得到了一定提升。

    一种中文同指事件识别方法及系统

    公开(公告)号:CN105302794A

    公开(公告)日:2016-02-03

    申请号:CN201510726584.5

    申请日:2015-10-30

    Applicant: 苏州大学

    Abstract: 一种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。

    一种中文事件的抽取方法及系统

    公开(公告)号:CN102693219B

    公开(公告)日:2014-11-05

    申请号:CN201210182651.8

    申请日:2012-06-05

    Applicant: 苏州大学

    Abstract: 本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。

    文本信息抽取方法和系统
    20.
    发明公开

    公开(公告)号:CN102298642A

    公开(公告)日:2011-12-28

    申请号:CN201110273322.X

    申请日:2011-09-15

    Applicant: 苏州大学

    Abstract: 本发明实施例公开了一种文本信息抽取方法,实现从文本中抽取某种现象或某个事件产生的原因信息;其方法根据原因种子对对从互联网中采集的语句进行分析,生成原因句抽取模式,并利用依存关系和依存路径表示原因句的抽取模式,再基于该抽取模式来抽取原因信息,抽取过程大大减少了人工成本;且以抽取的原因句和非原因句作为训练样本,训练一个支持向量机分类器在未分类的语句中进一步识别原因句,从而提高了性能;本发明还公开了一种文本信息抽取系统,用于抽取文本中某种现象或某个事件产生的原因的信息。

Patent Agency Ranking