-
公开(公告)号:CN111198946A
公开(公告)日:2020-05-26
申请号:CN201911360354.6
申请日:2019-12-25
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F16/34 , G06F16/9536 , G06F40/289 , G06F40/216
Abstract: 本发明实施例提供一种网络新闻热点挖掘方法及装置,该方法包括:对原始网络新闻数据进行预处理,得到网络新闻信息;通过双语LDA主题模型和双语LSA模型提取所述网络新闻信息中的文本特征向量;根据所述网络新闻信息中的文本特征向量,利用Single-Pass聚类算法在Spark平台上并行化运算,得到新闻热点话题信息。通过双语LDA模型和双语LSA模型相结合的文本特征提取方法不仅在主题模型中包含了对各话题有较强区分度的实体信息,还考虑了文本上下文之间的语义联系,并利用基于Spark的并行化Single-Pass聚类算法,加快聚类速度,更有效准确的实现网络新闻热点挖掘。