一种基于部分监督学习的中文概括性文本切分方法

    公开(公告)号:CN108009156A

    公开(公告)日:2018-05-08

    申请号:CN201711444997.X

    申请日:2017-12-27

    Abstract: 本发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

    一种基于部分监督学习的中文概括性文本切分方法

    公开(公告)号:CN108009156B

    公开(公告)日:2020-05-19

    申请号:CN201711444997.X

    申请日:2017-12-27

    Abstract: 本发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

    一种基于主动学习的中文正式文本分词方法

    公开(公告)号:CN108519978A

    公开(公告)日:2018-09-11

    申请号:CN201810316873.1

    申请日:2018-04-10

    Abstract: 本申请提供一种基于主动学习的中文正式文本分词方法,包括:使用当前的标注数据集L训练一个朴素贝叶斯分类器;使用当前的朴素贝叶斯分类器标注未标注数据集U;使用抽样方法选择最有信息量的片段给专家标注;将新抽样的标注好的片段添加到标注数据集L中;不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型,每次性能均提升1.5个百分点左右。

Patent Agency Ranking