一种特征对齐中文分词方法

    公开(公告)号:CN109472020B

    公开(公告)日:2022-07-01

    申请号:CN201811185491.6

    申请日:2018-10-11

    Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。

    一种特征对齐中文分词方法

    公开(公告)号:CN109472020A

    公开(公告)日:2019-03-15

    申请号:CN201811185491.6

    申请日:2018-10-11

    Abstract: 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。

    一种基于主动学习的标签查询与更改方法

    公开(公告)号:CN109543756A

    公开(公告)日:2019-03-29

    申请号:CN201811417152.6

    申请日:2018-11-26

    Inventor: 袁龙 李智星 于洪

    Abstract: 本发明请求保护一种基于主动学习的标签查询与更改方法,属于主动学习领域。包括步骤:首先利用10折交叉验证的方法和强弱分类算法训练多个分类模型;然后计算残差矩阵和置信度矩阵,其次将得到的两个新的矩阵横向拼接为一个矩阵,作为特征矩阵;再利用K-means算法对生成的特征矩阵进行聚类,根据阈值得到A,B,C,D四种类型的类簇;最后对疑似噪声的类簇(A类型和C类型)采用主动学习的方法重新标注部分样本,根据标注结果得到最终的噪声类簇;并将噪声类簇的样本标签修正为正确标签,将修正后的A,C类样本与B,D类样本合并为最终的训练样本集。本发明具有极好的筛选出标签噪声的效果,可以减少人工标记带来的代价,以非常小的主动学习代价获取更高的分类正确率。

Patent Agency Ranking