-
公开(公告)号:CN113722428A
公开(公告)日:2021-11-30
申请号:CN202110913106.0
申请日:2021-08-10
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F40/216 , G06F40/289
Abstract: 本发明是一种基于关键词挖掘新闻的时代特征提取方法。本发明对单篇新闻文章进行关键词的抽取,并进行分词操作;通过TF‑IDF算法和聚类系数对分词后的关键词进行赋权;基于TF‑IDF权值和聚集系数,进行归一化操作,得到所有特征词的权重;根据单篇新闻文章,筛选所有权值大于0.0001的特征词集合,得到出新闻关键词集合;对新闻关键词进行初步筛选和关键词过滤,并计算关键词的重要程度,并确定每个时期的特征关键词;计算单篇新闻文章的热度值,对关键词关联进行分析,确定关键词的联合度。
-
公开(公告)号:CN113722428B
公开(公告)日:2025-01-24
申请号:CN202110913106.0
申请日:2021-08-10
Applicant: 哈尔滨工业大学
IPC: G06F16/3331 , G06F40/216 , G06F40/289
Abstract: 本发明是一种基于关键词挖掘新闻的时代特征提取方法。本发明对单篇新闻文章进行关键词的抽取,并进行分词操作;通过TF‑IDF算法和聚类系数对分词后的关键词进行赋权;基于TF‑IDF权值和聚集系数,进行归一化操作,得到所有特征词的权重;根据单篇新闻文章,筛选所有权值大于0.0001的特征词集合,得到出新闻关键词集合;对新闻关键词进行初步筛选和关键词过滤,并计算关键词的重要程度,并确定每个时期的特征关键词;计算单篇新闻文章的热度值,对关键词关联进行分析,确定关键词的联合度。
-