一种基于原型聚类的文本增量关系抽取方法

    公开(公告)号:CN118013038A

    公开(公告)日:2024-05-10

    申请号:CN202410203376.6

    申请日:2024-02-23

    Abstract: 本发明属于自然语言处理领域,涉及一种基于原型聚类的文本增量关系抽取方法,包括:提取样本的上下文语义特征表示;将上下文语义特征表示输入到开放关系分类模型中进行训练;将待抽取文本关系的文本输入到训练后的开放关系分类模型中,判断输入文本的数据类型;若文本属于原始文本类别,则将文本加入该类型,否则作为其他类别文本;获取新类别文本数据,将新类别文本数据输入到训练后的开放关系分类模型,得到新类别的聚类中心,并对其他类别文本重新分类;对原始样本进行增强,对新类样本和增强后的原始类样本进行联合分类,得到文本关系;本发明采用联合有类别标签数据的监督学习和无类别标签数据的自监督学习模型,减少了对标签数据的依赖。

Patent Agency Ranking