-
公开(公告)号:CN110232149B
公开(公告)日:2022-03-01
申请号:CN201910385776.2
申请日:2019-05-09
Applicant: 北京邮电大学
IPC: G06F16/9535 , G06F16/33
Abstract: 本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
-
公开(公告)号:CN110232149A
公开(公告)日:2019-09-13
申请号:CN201910385776.2
申请日:2019-05-09
Applicant: 北京邮电大学
IPC: G06F16/9535 , G06F16/33
Abstract: 本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。
-