一种中文分词增量学习方法

    公开(公告)号:CN105068996B

    公开(公告)日:2017-11-17

    申请号:CN201510604035.0

    申请日:2015-09-21

    Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数 W ‾ Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) , 完成中文分词增量的学习。本发明适用中文分词领域。

    一种中文分词增量学习方法

    公开(公告)号:CN105068996A

    公开(公告)日:2015-11-18

    申请号:CN201510604035.0

    申请日:2015-09-21

    Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。

Patent Agency Ranking