-
公开(公告)号:CN106445990B
公开(公告)日:2019-10-11
申请号:CN201610470527.X
申请日:2016-06-25
Applicant: 上海大学 , 上海市科技企业联合会
IPC: G06F16/35
Abstract: 本发明涉及一种事件本体构建方法。本方法主要包括以下几个步骤:(1)获取相关领域的文档,(2)构建CEC语料库,(3)通过学习语料库,从文本中抽取事件以及事件各要素,(4)事件类分类以及非分类关系的抽取,(5)从归纳得到的事件类、事件类要素、事件类关系,抽象得到其形式化的描述语言,(6)实现基于事件本体的事件分类关系推理。本发明克服传统本体难以表示动态知识的缺陷,不仅适合于表示静态知识,而且适合于表示动态知识,降低本体中非分类关系的繁杂性,为计算文本语义提供了有效的支持。
-
公开(公告)号:CN106897364A
公开(公告)日:2017-06-27
申请号:CN201710020573.4
申请日:2017-01-12
Applicant: 上海大学
Abstract: 本发明涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1) 选择CEC2.0语料库作为构建基础,(2) 确定指代标注的目标以及标注方式,(3) 根据具体的指代目标制定相应的标注规范,(4) CEC2.0语料文本预处理,(5) 自动标注事件要素以及事件指代,(6) 通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。
-
公开(公告)号:CN106445990A
公开(公告)日:2017-02-22
申请号:CN201610470527.X
申请日:2016-06-25
Applicant: 上海大学
IPC: G06F17/30
Abstract: 本发明涉及一种事件本体构建方法。本方法主要包括以下几个步骤:(1) 获取相关领域的文档,(2) 构建CEC语料库,(3) 通过学习语料库,从文本中抽取事件以及事件各要素,(4) 事件类分类以及非分类关系的抽取,(5) 从归纳得到的事件类、事件类要素、事件类关系,抽象得到其形式化的描述语言,(6) 实现基于事件本体的事件分类关系推理。本发明克服传统本体难以表示动态知识的缺陷,不仅适合于表示静态知识,而且适合于表示动态知识,降低本体中非分类关系的繁杂性,为计算文本语义提供了有效的支持。
-
公开(公告)号:CN106897364B
公开(公告)日:2021-02-23
申请号:CN201710020573.4
申请日:2017-01-12
Applicant: 上海大学
Abstract: 本发明涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1)选择CEC2.0语料库作为构建基础,(2)确定指代标注的目标以及标注方式,(3)根据具体的指代目标制定相应的标注规范,(4)CEC2.0语料文本预处理,(5)自动标注事件要素以及事件指代,(6)通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。
-
公开(公告)号:CN105138537B
公开(公告)日:2018-12-07
申请号:CN201510398058.0
申请日:2015-07-08
Applicant: 上海大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于自信息的跨学科领域共现主题发现方法,该方法具体步骤如下:(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;(2)、数据处理:提取和数字化自评中的正文部分;(3)、抽取候选低频主题词;(4)、计算低频主题评价系数;(5)、设定低频主题词评价系数的阈值;(6)、过滤低频主题词。该方法为主题发现的相关研究提供了新的思路。不仅高频词与主题有紧密关系,低频词也是一种可以利用的资源。该方法可以应用到评价类文档集的主题发现,例如从自传题材中提取人物的共同经历、从股票评论中提取评价股票的共同指标,从而实现不同学科领域文档集中的共现主题提取。
-
公开(公告)号:CN105138537A
公开(公告)日:2015-12-09
申请号:CN201510398058.0
申请日:2015-07-08
Applicant: 上海大学
IPC: G06F17/30
CPC classification number: G06F17/30684 , G06F17/30731
Abstract: 本发明公开了一种基于自信息的跨学科领域共现主题发现方法,该方法具体步骤如下:(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;(2)、数据处理:提取和数字化自评中的正文部分;(3)、抽取候选低频主题词;(4)、计算低频主题评价系数;(5)、设定低频主题词评价系数的阈值;(6)、过滤低频主题词。该方法为主题发现的相关研究提供了新的思路。不仅高频词与主题有紧密关系,低频词也是一种可以利用的资源。该方法可以应用到评价类文档集的主题发现,例如从自传题材中提取人物的共同经历、从股票评论中提取评价股票的共同指标,从而实现不同学科领域文档集中的共现主题提取。
-
-
-
-
-