-
公开(公告)号:CN112861990A
公开(公告)日:2021-05-28
申请号:CN202110242927.6
申请日:2021-03-05
Applicant: 电子科技大学
IPC: G06K9/62 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质,属于自然语言处理技术领域。本发明首先对新闻进行文本预处理,获取关键词,以及实体词;并基于新闻的关键词进行第一次聚类,以获取新闻的子主题;进而基于子主题所包含的实体,进行第二次聚类处理,以获取新闻主题。本发明通过第一次聚类过滤噪音点,提升聚类准确率;通过第二聚类提高聚类处理的召回率,第二次聚类时,使用实体作为唯一文本特征值,提取的实体是与新闻主题关联度很高,提升计算效率。本发明不仅可以快速高效地帮助用户发现感兴趣的新闻主题,还可以便捷地与知识库融合,帮助公众更好地了解新闻主题。
-
公开(公告)号:CN112861990B
公开(公告)日:2022-11-04
申请号:CN202110242927.6
申请日:2021-03-05
Applicant: 电子科技大学
IPC: G06K9/62 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质,属于自然语言处理技术领域。本发明首先对新闻进行文本预处理,获取关键词,以及实体词;并基于新闻的关键词进行第一次聚类,以获取新闻的子主题;进而基于子主题所包含的实体,进行第二次聚类处理,以获取新闻主题。本发明通过第一次聚类过滤噪音点,提升聚类准确率;通过第二聚类提高聚类处理的召回率,第二次聚类时,使用实体作为唯一文本特征值,提取的实体是与新闻主题关联度很高,提升计算效率。本发明不仅可以快速高效地帮助用户发现感兴趣的新闻主题,还可以便捷地与知识库融合,帮助公众更好地了解新闻主题。
-