一种基于互信息的N_gram中文分词方法

    公开(公告)号:CN112560446A

    公开(公告)日:2021-03-26

    申请号:CN202011458944.5

    申请日:2020-12-11

    Inventor: 陈宇 王亚威

    Abstract: 本发明涉及一种基于互信息的N_gram中文分词方法,其中基于互信息的N_gram中文分词方法包括:首先根据训练数据集仅使用词长度小于6的词建立词典,获得N_gram语言模型的统计信息以及得到字与字之间的内部连接度和外部离散度,计算字与字之间的分合比;然后使用双向最大匹配算法根据词典和N_gram语言模型的统计信息进行中文分词;最后为根据字与字之间的内部连接度、外部离散度以及分合比对分词结果进行二次处理,得到最终的分词结果。该方法通过引入互信息知识有效的提升N_gram算法的分词速度,并且提高了N_gram算法的分词准确率,突破了N_gram算法无法处理未登录词的限制。

Patent Agency Ranking