一种基于改进鲸鱼优化算法的文本聚类方法

    公开(公告)号:CN116860971A

    公开(公告)日:2023-10-10

    申请号:CN202310823599.8

    申请日:2023-07-06

    Abstract: 本发明涉及一种基于改进鲸鱼优化算法的文本聚类方法,属于大数据挖掘和机器学习领域。该方法包括以下步骤:S1:利用Spark从科研文本数据库中获取科研文本数据,并进行数据清洗;S2:对数据清洗后的文本数据进行进行分词、去停用词、特征选择、向量化和降维操作,将非结构化的文本数据转化成结构化的数值型的数据;S3:利用K‑means算法计算出初始的聚类中心,使用改进鲸鱼优化算法对聚类中心进行优化并输出聚类结果。本发明利用改进鲸鱼优化算法的全局寻优能力,解决了当前文本聚类算法容易陷入局部最优的问题,提高了对科研文本数据聚类的准确性,减少了数据维度,增强了聚类的效果。

Patent Agency Ranking