一种基于倾斜随机森林的处理大量文本中识别不良文本的方法

    公开(公告)号:CN114564575A

    公开(公告)日:2022-05-31

    申请号:CN202210058001.6

    申请日:2022-01-19

    Abstract: 本发明涉及人工智能技术领域,具体涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,包括读取文本数据;对文本数据进行预处理,得到文本向量;建立不良文本词典对所述文本向量进行不良率判断,若判断不合格则将所述文本向量定义为不良文本;若判断合格则得到文本集合并执行下一步;基于文本集合,利用随机森林构建倾斜随机森林分类模型;利用倾斜随机森林分类模型对文本向量进行分类,得到文本分类结果,通过倾斜随机森林分类模型得出的分类结果准确率较高,解决了传统的随机森林算法分类的准确率较低的问题。

Patent Agency Ranking