-
公开(公告)号:CN113282756B
公开(公告)日:2023-01-10
申请号:CN202110731348.8
申请日:2021-06-29
Applicant: 华南农业大学
IPC: G06F16/35 , G06F40/216 , G06N3/00
Abstract: 本发明公开一种基于混合聚类的文本聚类智能评估方法,该方法包括下述步骤:对文本集预处理得到原始文本集内所有特征词;删除文本集中高频和低频的特征词得到预选择后的特征子集;采用TF‑IDF方法计算原始文本集中所有文本对应权重;对特征子集中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵;设定适应值函数,对特征子集进行特征再选择,选取适应值最优的全局最优个体;对全局最优个体进行解码,得到最终特征子集T;采用TF‑IDF方法表示成T上的向量并进行归一化、标准化,采用混合聚类方法进行文本聚类,选出聚类的最终结果;为聚类结果中的每个簇生成词云。本发明具有聚类效果好,计算量较小的优点。
-
公开(公告)号:CN113282756A
公开(公告)日:2021-08-20
申请号:CN202110731348.8
申请日:2021-06-29
Applicant: 华南农业大学
IPC: G06F16/35 , G06F40/216 , G06K9/62 , G06N3/00
Abstract: 本发明公开一种基于混合聚类的文本聚类智能评估方法,该方法包括下述步骤:对文本集预处理得到原始文本集内所有特征词;删除文本集中高频和低频的特征词得到预选择后的特征子集;采用TF‑IDF方法计算原始文本集中所有文本对应权重;对特征子集中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵;设定适应值函数,对特征子集进行特征再选择,选取适应值最优的全局最优个体;对全局最优个体进行解码,得到最终特征子集T;采用TF‑IDF方法表示成T上的向量并进行归一化、标准化,采用混合聚类方法进行文本聚类,选出聚类的最终结果;为聚类结果中的每个簇生成词云。本发明具有聚类效果好,计算量较小的优点。
-