一种基于半监督学习的开放域中文文本命名实体识别方法

    公开(公告)号:CN108763201A

    公开(公告)日:2018-11-06

    申请号:CN201810472083.2

    申请日:2018-05-17

    Applicant: 南京大学

    CPC classification number: G06F17/278 G06F17/277

    Abstract: 一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。

    一种基于半监督学习的开放域中文文本命名实体识别方法

    公开(公告)号:CN108763201B

    公开(公告)日:2021-07-23

    申请号:CN201810472083.2

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。

Patent Agency Ranking