一种短文本框聚类方法、系统、设备及存储介质

    公开(公告)号:CN112860898B

    公开(公告)日:2022-05-27

    申请号:CN202110279525.3

    申请日:2021-03-16

    Abstract: 本发明涉及一种短文本框聚类方法、系统、设备及存储介质,该方法包括:对原始短文本进行预处理;提取短文本特征词;将短文本特征词转换为短文本特征向量;先初始化聚类中心,然后将聚类中心映射到LSH表中;再根据短文本到聚类中心的文本相似度,选择若干个候选类;根据哈希值选择短文本特征向量的簇集合;重新计算短文本特征向量的簇集合的新聚类中心;循环执行直到新聚类中心不再发生变化,输出文本聚类结果。本发明中,采用WMD‑IP距离作为文本相似度,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。

    一种基于BERT模型的话题检测方法、设备及存储介质

    公开(公告)号:CN113806528A

    公开(公告)日:2021-12-17

    申请号:CN202110769245.0

    申请日:2021-07-07

    Abstract: 本发明涉及一种基于BERT模型的话题检测方法与装置、设备及存储介质,包括步:(1)使用BERT模型对原始数据中的文本进行编码,将可变长度文本转换为固定长度的文本特征向量;(2)对文本特征向量依次进行归一化、卷积、池化处理,得到文本特征向量;(3)计算文本特征向量之间的相似度,对相似的文本特征向量去重;(4)使用文本特征向量分类器对文本特征向量进行分类,剔除垃圾信息;(5)利用X‑means算法对剔除垃圾信息后的文本特征向量聚类,输出文本聚类结果。本发明很好地对文本数据进行话题检测,话题检测对舆情分析、新闻热门话题追踪、热门话题检测、突发话题检测以及事件检测等应用场景具有重要意义。

    一种短文本框聚类方法、系统、设备及存储介质

    公开(公告)号:CN112860898A

    公开(公告)日:2021-05-28

    申请号:CN202110279525.3

    申请日:2021-03-16

    Abstract: 本发明涉及一种短文本框聚类方法、系统、设备及存储介质,该方法包括:对原始短文本进行预处理;提取短文本特征词;将短文本特征词转换为短文本特征向量;先初始化聚类中心,然后将聚类中心映射到LSH表中;再根据短文本到聚类中心的文本相似度,选择若干个候选类;根据哈希值选择短文本特征向量的簇集合;重新计算短文本特征向量的簇集合的新聚类中心;循环执行直到新聚类中心不再发生变化,输出文本聚类结果。本发明中,采用WMD‑IP距离作为文本相似度,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。

Patent Agency Ranking