-
公开(公告)号:CN115099373B
公开(公告)日:2023-04-07
申请号:CN202211028920.5
申请日:2022-08-26
Applicant: 南京中孚信息技术有限公司
IPC: G06F18/2321 , G06F40/289 , G06F16/35
Abstract: 本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理,得到文本数据信息;然后计算所述数据信息分词的TF‑IDF值;接着将得到权重最高的20个词使用CBOW词向量模型生成向量,最后根据所述文本数据信息中的词向量,通过文本聚类算法得到文本聚类结果,通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数,实现二次聚类。本发明通过增加聚类中心,使得新文档与簇进行计算时,只需要与簇内中心向量进行计算,大大减少了计算量,增加了计算的速率,并且通过jaccard相似系数,实现利用簇中心特征和文本特征对聚类结果的二次调整,优化输入数据顺序敏感问题。
-
公开(公告)号:CN115099373A
公开(公告)日:2022-09-23
申请号:CN202211028920.5
申请日:2022-08-26
Applicant: 南京中孚信息技术有限公司
IPC: G06K9/62 , G06F40/289 , G06F16/35
Abstract: 本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理,得到文本数据信息;然后计算所述数据信息分词的TF‑IDF值;接着将得到权重最高的20个词使用CBOW词向量模型生成向量,最后根据所述文本数据信息中的词向量,通过文本聚类算法得到文本聚类结果,通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数,实现二次聚类。本发明通过增加聚类中心,使得新文档与簇进行计算时,只需要与簇内中心向量进行计算,大大减少了计算量,增加了计算的速率,并且通过jaccard相似系数,实现利用簇中心特征和文本特征对聚类结果的二次调整,优化输入数据顺序敏感问题。
-