-
公开(公告)号:CN117076676A
公开(公告)日:2023-11-17
申请号:CN202311060015.2
申请日:2023-08-22
Applicant: 电子科技大学
IPC: G06F16/35 , G06F40/30 , G06F40/295
Abstract: 本发明属于自然语言处理领域,具体提供一种基于实体结构编码与两次分类的文档级关系抽取方法,用以解决文档语料中实体之间的结构信息被忽视、实体对之间的语义依赖关系被忽视导致的部分潜在三元组难以抽取的问题。本发明设计了一种新的关系抽取框架,采用两次分类的方式分别对简单三元组和潜在三元组进行抽取;在对文档实体编码后,对拼接的实体对进行预分类,基于改进的自适应阈值损失函数抽取出容易分类的简单三元组;之后将预分类结果作为辅助推理信息增强实体表示并进行第二次分类,可以有效提升文档中潜在三元组的抽取效果;综上,本发明能够根据输入的文档对指定的实体之间的关系进行自动抽取。