-
公开(公告)号:CN110069703B
公开(公告)日:2023-10-24
申请号:CN201910219638.7
申请日:2019-03-19
Applicant: 南京大学
IPC: G06F16/9535 , G06F16/9536 , G06F16/35 , G06F40/289 , G06F40/30 , G06Q50/00
Abstract: 本发明公开了一种基于特征增强的微博话题检测方法。本发明针对微博话题检测存在的问题,从微博的时间特性和微博语义相似度出发对特征进行了增强,提升了Single‑Pass算法在微博话题检测场景下的表现。本发明通过将微博的时间特性融入到微博文本特征的相似度计算中,提高了属于同一话题的微博内容在时间维度上的关联度;通过使用分布式词向量表示微博,并利用其中的语义关系来增强微博关键特征,解决了微博特征稀疏的问题;为了减少了话题检测时微博与话题簇的比较次数,提出用于表示话题簇的“簇中心”概念,并围绕该概念进行计算。实验结果显示本发明简单易行,使用效果好,可以为微博话题检测提供实用方法。
-
公开(公告)号:CN110069703A
公开(公告)日:2019-07-30
申请号:CN201910219638.7
申请日:2019-03-19
Applicant: 南京大学
IPC: G06F16/9535 , G06F16/9536 , G06F16/35 , G06F17/27 , G06Q50/00
Abstract: 本发明公开了一种基于特征增强的微博话题检测方法。本发明针对微博话题检测存在的问题,从微博的时间特性和微博语义相似度出发对特征进行了增强,提升了Single-Pass算法在微博话题检测场景下的表现。本发明通过将微博的时间特性融入到微博文本特征的相似度计算中,提高了属于同一话题的微博内容在时间维度上的关联度;通过使用分布式词向量表示微博,并利用其中的语义关系来增强微博关键特征,解决了微博特征稀疏的问题;为了减少了话题检测时微博与话题簇的比较次数,提出用于表示话题簇的“簇中心”概念,并围绕该概念进行计算。实验结果显示本发明简单易行,使用效果好,可以为微博话题检测提供实用方法。
-