一种基于主动学习的中文正式文本分词方法

    公开(公告)号:CN108519978A

    公开(公告)日:2018-09-11

    申请号:CN201810316873.1

    申请日:2018-04-10

    Abstract: 本申请提供一种基于主动学习的中文正式文本分词方法,包括:使用当前的标注数据集L训练一个朴素贝叶斯分类器;使用当前的朴素贝叶斯分类器标注未标注数据集U;使用抽样方法选择最有信息量的片段给专家标注;将新抽样的标注好的片段添加到标注数据集L中;不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型,每次性能均提升1.5个百分点左右。

Patent Agency Ranking