基于事件的中文指代语料库构建方法

    公开(公告)号:CN106897364A

    公开(公告)日:2017-06-27

    申请号:CN201710020573.4

    申请日:2017-01-12

    Applicant: 上海大学

    Abstract: 本发明涉及一种基于事件的中文指代语料库构建方法。本方法主要包括以下几个步骤:(1) 选择CEC2.0语料库作为构建基础,(2) 确定指代标注的目标以及标注方式,(3) 根据具体的指代目标制定相应的标注规范,(4) CEC2.0语料文本预处理,(5) 自动标注事件要素以及事件指代,(6) 通过人工标注进一步优化标注结果,(7)设定一致性检验步骤,确保语料标注的质量。本发明克服了现有的指代消解语料库的缺陷。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注质量。

Patent Agency Ranking