-
公开(公告)号:CN114021566A
公开(公告)日:2022-02-08
申请号:CN202111268377.1
申请日:2021-10-29
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F16/36 , G06F16/35 , G06N3/08
Abstract: 本发明提出一种开放域文本的实体关系抽取方法和系统,包括:获取已标注的文本作为训练数据,实体识别抽取训练数据中所有命名实体和名词短语,并对其进行数据增强;以增强后的数据为输入,训练神经网络模型,得到实体关系分类模型;统计增强后的数据中各命名实体和名词短语出现的词频,并将词频大于预设值的命名实体和名词短语标记为过滤词汇;获取开放域文本及其对应的头实体,抽取开放域文本中除过滤词汇以外的命名实体和名词短语并输入实体关系分类模型,得到开放域文本的实体关系。通过有效的数据增强策略,无需增加额外的成本,有效解决由于候选尾实体带来的噪音问题导致的实体关系识别在实际应用中效果不佳的问题。