基于XGBOOST算法的英语文本智能聚类评分方法及装置

    公开(公告)号:CN118093869A

    公开(公告)日:2024-05-28

    申请号:CN202410200118.2

    申请日:2024-02-23

    Abstract: 本发明公开了一种基于XGBOOST算法的英语文本智能聚类评分方法及装置,方法包括:对原始英文文本数据进行数据预处理,运用N‑最短路径算法与停用词表对特征词进行提取;粗筛选:按一定比例,删去文本中频率特别高和频率特别低的特征词,形成特征词子集;再筛选:利用改进的粒子群优化算法,对特征进行再选择,并通过解码得到最终的特征子集;利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,经过训练后,利用训练好的基于XGBOOST英文文本智能聚类评分模型中,根据聚类结果对输入的文本进行评估。本发明能够通过降低英文文本特征维度,提高系统的全局搜索能力和收敛速度,大大加快文本聚类的速度。

Patent Agency Ranking