一种基于改进FP-Growth算法的微博类短文本的新词发现方法

    公开(公告)号:CN108319584A

    公开(公告)日:2018-07-24

    申请号:CN201810058993.6

    申请日:2018-01-22

    CPC classification number: G06F17/277

    Abstract: 本发明公开一种基于改进的FP-Growth算法的微博类短文本的新词发现方法,包括:获取文本语料,利用jieba进行分词、词性标注等预处理;通过优化的FP-Growth算法获得频繁项集词集,并对每个频繁项有序化;利用N-grams模型获取重复串,并与频繁项集取交集;通过词性过滤,过滤掉一些在构词结构上不常用的词性;利用改进的互信息,滑动迭代计算互信息来过滤新词;利用词性组合规则库再进行一次过滤;验证该方法获取新词的有效性。

Patent Agency Ranking