一种网络社区话题整合方法及系统

    公开(公告)号:CN109190009A

    公开(公告)日:2019-01-11

    申请号:CN201811062807.2

    申请日:2018-09-12

    Abstract: 本发明公开了一种网络社区话题整合方法及系统,属于数据处理技术领域。所述方法包括:收集网络社区话题语料,对收集的话题语料进行预处理后作为样本集;采用模糊K-means算法对样本集进行聚类,分析聚类结果得到热点话题;对样本集进行分类得到各分类类别;根据收集的话题语料所属的分类类别及热点话题,分层级的显示给用户。本发明中,采用模糊K-means算法对样本集进行聚类,避免了由于词汇文本涉及多个话题而导致一些特征丢失的现象;同时结合分类操作,实现了网络社区话题的整合,并根据整合结果将话题语料分层级的显示给用户,不仅便于用户查阅,提升用户体验,而且有利于数据挖掘,有利于对网络社区的舆论情况进行监管。

    一种网络社区话题分类方法及装置

    公开(公告)号:CN109446393B

    公开(公告)日:2020-06-30

    申请号:CN201811062800.0

    申请日:2018-09-12

    Abstract: 本发明公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。

    一种网络社区话题分类方法及装置

    公开(公告)号:CN109446393A

    公开(公告)日:2019-03-08

    申请号:CN201811062800.0

    申请日:2018-09-12

    Abstract: 本发明公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。

Patent Agency Ranking