-
公开(公告)号:CN109325228A
公开(公告)日:2019-02-12
申请号:CN201811093486.2
申请日:2018-09-19
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。
-
公开(公告)号:CN105573977A
公开(公告)日:2016-05-11
申请号:CN201510698260.5
申请日:2015-10-23
Applicant: 苏州大学
Abstract: 本发明提供一种中文事件时序关系识别方法及系统,对需要识别事件时序关系的原始文本的每个文档进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,并根据标注语料特征集合中各个事件对的特征,训练最大熵事件时序关系识别模型;再利用最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
-
公开(公告)号:CN102508824B
公开(公告)日:2013-04-03
申请号:CN201110298118.3
申请日:2011-09-29
Applicant: 苏州大学
Abstract: 本发明实施例公开了微博信息的压缩编码和解码的方法及装置,本发明实施例通过设置中文词典、中文符号表和英文字典对使用UCS-2编码的微博进行压缩再编码,其中压缩编码的方法概括为:识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;根据中文词典和中文符号表,对中文字符段进行压缩再编码;根据英文字典,对英文字符段进行压缩再编码;生成压缩编码微博。根据本发明实施例,可用2个字节表示原来用4个以上字节表示的中文词组和英文单词,节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。
-
公开(公告)号:CN102693219A
公开(公告)日:2012-09-26
申请号:CN201210182651.8
申请日:2012-06-05
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。
-
-
-