-
公开(公告)号:CN108009234B
公开(公告)日:2022-02-11
申请号:CN201711227016.6
申请日:2017-11-29
Applicant: 苏州大学
Abstract: 本申请公开了一种非实体类型论元的抽取方法,对非实体类型论元与触发词的位置关系进行了判断,提出了对候选子树的选择策略,改进了对候选子树分类所使用的特征,加入了实体作为候选子树内部的语义信息,从而对实体类型论元进行了排除性识别,这些改进措施使得应用于覆盖域的识别方法移植到非实体类型论元的识别上来,进一步获得了非实体类型论元。该方法更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性。本申请还公开了一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果。
-
公开(公告)号:CN109359184A
公开(公告)日:2019-02-19
申请号:CN201811203139.0
申请日:2018-10-16
Applicant: 苏州大学
IPC: G06F16/332 , G06F16/35
Abstract: 本发明公开了一种英文事件同指消解方法和系统。本发明英文事件同指消解方法,包括:读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合。本发明的有益效果:利用从事件句中抽取的信息特征和事件对匹配特征,采用循环神经网络对事件对之间的同指关系进行判定;本发明采用循环神经网络模型,利用深度学习来解决事件同指消解问题;本发明的方法和系统,与现有的方法和系统相比,英文事件同指消解性能得到了明显提升。
-
-
-
公开(公告)号:CN106021229A
公开(公告)日:2016-10-12
申请号:CN201610333173.4
申请日:2016-05-19
Applicant: 苏州大学
IPC: G06F17/27
CPC classification number: G06F17/271
Abstract: 本发明提出篇章级别的中文事件同指消解方法和系统,该方法和系统能利用篇章知识来识别文档中的事件同指关系。在实现方法上,本发明采用机器学习、全局优化和联合学习推理相结合的方法,利用中文语言知识进行事件同指消解。本发明的中文事件同指消解方法和系统,与现有方法和系统相比,消解性能得到了明显提升。
-
公开(公告)号:CN104331480A
公开(公告)日:2015-02-04
申请号:CN201410626003.6
申请日:2014-11-07
Applicant: 苏州大学
CPC classification number: G06F17/30731 , G06F17/271
Abstract: 本发明提供一种中文事件触发词的抽取系统及方法。所述系统包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块及触发词识别模块。本发明根据角色语义是事件语义的表示形式之一,提供了利用核心角色和辅助角色来表示角色语义的方法,并用于中文事件触发词的抽取。与现有最好的中文事件抽取方法和系统相比,本发明提供的方法对于中文事件触发词的抽取性能有了明显提升。
-
公开(公告)号:CN102831236B
公开(公告)日:2015-02-04
申请号:CN201210321193.1
申请日:2012-09-03
Applicant: 苏州大学
Abstract: 本发明实施例公开了一种中文事件触发词的扩展方法及系统,本方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。
-
公开(公告)号:CN104156352A
公开(公告)日:2014-11-19
申请号:CN201410403486.3
申请日:2014-08-15
Applicant: 苏州大学
Abstract: 本发明公开了一种中文事件的处理方法及系统,方法包括:对原始文本内文档的语句进行分析,得到依存和句法文档集合;依据事件抽取请求数据抽取种子事件模板,得到种子事件模板集合;在依存和句法文档集合中,依据触发词选取规则选择候选触发词,得到候选触发词集合;依据依存和句法文档集合中依存关系信息,将候选触发词集合的候选触发词与其所属语句中的实体进行两两组合,得到多个候选事件模板,所有候选事件模板组成候选事件模板集合;依据语义信息集合及种子事件模板集合,对候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;对过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
-
公开(公告)号:CN103617280A
公开(公告)日:2014-03-05
申请号:CN201310664718.6
申请日:2013-12-09
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30699
Abstract: 本发明公开一种中文事件信息挖掘方法和系统,该方法基于挖掘需求,定义事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到候选模板集合;并对种子事件进行信息标注,基于标注信息对种子事件进行处理,得到种子模板集合。之后采用迭代方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对候选模板集合进行处理,得到挖掘事件锚集合,并依据该集合中每个挖掘事件锚和种子事件集合中任一种子事件锚的词汇语义相似度,获取挖掘事件锚对应的事件类型。可见本发明只需标注少量样本,即只需标注种子事件即可实现从原始文本中挖掘中文事件信息的目的,降低了挖掘成本。
-
公开(公告)号:CN102508824A
公开(公告)日:2012-06-20
申请号:CN201110298118.3
申请日:2011-09-29
Applicant: 苏州大学
Abstract: 本发明实施例公开了微博信息的压缩编码和解码的方法及装置,本发明实施例通过设置中文词典、中文符号表和英文字典对使用UCS-2编码的微博进行压缩再编码,其中压缩编码的方法概括为:识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;根据中文词典和中文符号表,对中文字符段进行压缩再编码;根据英文字典,对英文字符段进行压缩再编码;生成压缩编码微博。根据本发明实施例,可用2个字节表示原来用4个以上字节表示的中文词组和英文单词,节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。
-
-
-
-
-
-
-
-
-