-
公开(公告)号:CN118551761A
公开(公告)日:2024-08-27
申请号:CN202310176248.2
申请日:2023-02-24
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/30 , G06N5/02 , G06F16/35 , G06N3/084 , G06N3/047 , G06N3/0464
Abstract: 本发明提出一种基于主动学习的文本关系抽取方法和系统,包括:从文档库中筛选出所有和知识库中实体对相异的新实体对;使用噪声预测模型筛除所有新实体对中的噪声数据,得到中间实体对,使用关系预测模型对所有中间实体对进行打分,为得分高于阈值的中间实体打标注,形成新关系数据集;合并新关系数据集、重标注数据集和清洁数据集,形成远程监督关系抽取数据集;使用K个具有不同噪声转换矩阵的句子编码器分别拟合句子的向量表示在各标签类型上的噪声分布,以将真实标签的语义表征映射到噪声标签的语义表征空间中,得到句子的预测标签,其中K为标签类型总数;基于训练完成后的K个句子编码器产生的预测结果,得到目标句子中实体对的文本关系。