Patent search ap:("南京中孚信息技术有限公司") AND inv:"章东润" Page 1

1.

发明授权
一种基于single-pass的文本聚类方法及其装置有权

公开(公告)号：CN115099373B

公开(公告)日：2023-04-07

申请号：CN202211028920.5

申请日：2022-08-26

Applicant: 南京中孚信息技术有限公司

Inventor： 罗圣美 , 王超 , 章东润

IPC: G06F18/2321 , G06F40/289 , G06F16/35

Abstract: 本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理，得到文本数据信息；然后计算所述数据信息分词的TF‑IDF值；接着将得到权重最高的20个词使用CBOW词向量模型生成向量，最后根据所述文本数据信息中的词向量，通过文本聚类算法得到文本聚类结果，通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数，实现二次聚类。本发明通过增加聚类中心，使得新文档与簇进行计算时，只需要与簇内中心向量进行计算，大大减少了计算量，增加了计算的速率，并且通过jaccard相似系数，实现利用簇中心特征和文本特征对聚类结果的二次调整，优化输入数据顺序敏感问题。

2.

发明公开
一种基于single-pass的文本聚类方法及其装置有权

公开(公告)号：CN115099373A

公开(公告)日：2022-09-23

申请号：CN202211028920.5

申请日：2022-08-26

Applicant: 南京中孚信息技术有限公司

Inventor： 罗圣美 , 王超 , 章东润

IPC: G06K9/62 , G06F40/289 , G06F16/35

Abstract: 本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理，得到文本数据信息；然后计算所述数据信息分词的TF‑IDF值；接着将得到权重最高的20个词使用CBOW词向量模型生成向量，最后根据所述文本数据信息中的词向量，通过文本聚类算法得到文本聚类结果，通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数，实现二次聚类。本发明通过增加聚类中心，使得新文档与簇进行计算时，只需要与簇内中心向量进行计算，大大减少了计算量，增加了计算的速率，并且通过jaccard相似系数，实现利用簇中心特征和文本特征对聚类结果的二次调整，优化输入数据顺序敏感问题。

Patent Agency Ranking