-
公开(公告)号:CN102298635A
公开(公告)日:2011-12-28
申请号:CN201110269307.8
申请日:2011-09-13
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开了一种事件信息融合方法和系统,用于对事件信息进行抽取、补全、事件聚类和融合,形成事件信息完整度高的完备事件。本发明实施例方法包括:生成包括多个事件的初选事件集合;比较初选事件集中的事件与事件抽取模式的相似度,形成候选事件集合;甄别和标注候选事件集合,生成训练样本,通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,生成事件标注正文,对存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;对第一事件集合的事件实例进行聚类,再进行归一化,生成完备事件。
-
公开(公告)号:CN101446943A
公开(公告)日:2009-06-03
申请号:CN200810243606.2
申请日:2008-12-10
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明公开了一种中文处理中基于语义角色信息的指代消解方法,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。本发明极大地提升了指代消解的性能,且其提升是稳定的。
-
公开(公告)号:CN109325228B
公开(公告)日:2023-02-10
申请号:CN201811093486.2
申请日:2018-09-19
Applicant: 苏州大学
IPC: G06F40/284 , G06F40/211 , G06F40/30
Abstract: 本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。
-
公开(公告)号:CN109299442A
公开(公告)日:2019-02-01
申请号:CN201811168250.0
申请日:2018-10-08
Applicant: 苏州大学
Abstract: 本发明涉及一种汉语篇章主次关系识别方法,包括:读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息,得到篇章主次关系集合,对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化,得到二元篇章主次关系集合。所述标注文档集合是已经标注了篇章主次关系类型的文档集合,是本发明训练模型的基础。基于门控记忆网络的篇章主次关系识别系统和方法,将预测的篇章单元转化成词向量,利用门控记忆神经网络自动的捕获篇章单元之间的隐含特征,以及相对于整体来说更重要的信息;本发明的方法和系统,与现有方法和系统相比,汉语篇章主次关系识别性能得到了提升。
-
公开(公告)号:CN106055536B
公开(公告)日:2018-08-21
申请号:CN201610333246.X
申请日:2016-05-19
Applicant: 苏州大学
Abstract: 本发明提出篇章级别的中文事件联合推理方法和系统,该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取,减少传统管道模型中的级联错误。在实现方法上,本发明采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系。本发明的方法和系统,与现有方法和系统相比,识别性能得到了一定提升。
-
公开(公告)号:CN105302794B
公开(公告)日:2018-08-07
申请号:CN201510726584.5
申请日:2015-10-30
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第集合。对事件同指第集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
-
公开(公告)号:CN108009234A
公开(公告)日:2018-05-08
申请号:CN201711227016.6
申请日:2017-11-29
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请公开了一种非实体类型论元的抽取方法,对非实体类型论元与触发词的位置关系进行了判断,提出了对候选子树的选择策略,改进了对候选子树分类所使用的特征,加入了实体作为候选子树内部的语义信息,从而对实体类型论元进行了排除性识别,这些改进措施使得应用于覆盖域的识别方法移植到非实体类型论元的识别上来,进一步获得了非实体类型论元。该方法更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性。本申请还公开了一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果。
-
-
公开(公告)号:CN103617280B
公开(公告)日:2017-01-25
申请号:CN201310664718.6
申请日:2013-12-09
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开一种中文事件信息挖掘方法和系统,该方法基于挖掘需求,定义事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到候选模板集合;并对种子事件进行信息标注,基于标注信息对种子事件进行处理,得到种子模板集合。之后采用迭代方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对候选模板集合进行处理,得到挖掘事件锚集合,并依据该集合中每个挖掘事件锚和种子事件集合中任一种子事件锚的词汇语义相似度,获取挖掘事件锚对应的事件类型。可见本发明只需标注少量样本,即只需标注种子事件即可实现从原始文本中挖掘中文事件信息的目的,降低了挖掘成本。
-
公开(公告)号:CN103530281B
公开(公告)日:2016-06-22
申请号:CN201310482550.7
申请日:2013-10-15
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明公开一种论元抽取方法和系统,所述方法基于标注信息对训练语料中标注事件实例进行处理,得到训练语料论元模式集合;基于测试语料中事件实例的角色集合对事件实例进行处理,得到测试语料候选论元模式集合;根据论元、触发词语义相似性及依存路径相似性,计算每一候选论元模式和训练语料论元模式集合中各论元模式的模式语义相似度,并基于此获取包含候选论元匹配事件实例中可匹配角色的匹配度信息的论元模式相似度集合;基于论元模式相似度集合,选取与事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为角色的论元。可见本发明基于语义特征对中文事件的论元进行提取,提高了中文事件论元提取的准确率和性能。
-
-
-
-
-
-
-
-
-