-
公开(公告)号:CN118035447A
公开(公告)日:2024-05-14
申请号:CN202410211626.0
申请日:2024-02-26
Applicant: 中国联合网络通信集团有限公司
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06N3/084
Abstract: 本申请提供一种文本聚类方法、装置及存储介质,涉及自然语言处理领域,能够准确地对文本进行聚类。该方法包括:获取与多个待聚类文本一一对应的多个特征向量;对多个特征向量进行聚类,得到多个第一特征簇,并确定与多个第一特征簇一一对应的多个第二特征簇;第二特征簇所包括的特征向量对应的第一距离小于第二距离,第一距离用于表示第二特征簇所包括的特征向量与第二特征簇对应的第一特征簇的质心之间的距离,第二距离用于表示第二特征簇所包括的特征向量与其他第一特征簇的质心之间的距离;在各第二特征簇的质心与所对应的第一特征簇的质心相同的情况下,将多个第二特征簇确定为多个待聚类文本对应的聚类结果。