-
公开(公告)号:CN108875065A
公开(公告)日:2018-11-23
申请号:CN201810711968.3
申请日:2018-07-02
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于内容的印尼新闻网页推荐方法,首先爬取印尼新闻数据,提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中;利用所述印尼新闻数据训练word2vector神经网络模型和doc2vector神经网络模型,分别得到词到向量的映射字典和具有稳定参数的模型;筛选出与当前被浏览的印尼新闻的关键词编号重复最多的p篇印尼新闻,作为候选数据集;利用所述映射字典和模型计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的向量表示;利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离;利用所述距离进行排序,选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻;本发明能够保证相似性的同时极大减少计算量。
-
公开(公告)号:CN108875065B
公开(公告)日:2021-07-06
申请号:CN201810711968.3
申请日:2018-07-02
Applicant: 电子科技大学
IPC: G06F16/9535 , G06F40/284 , G06F40/242
Abstract: 本发明公开了一种基于内容的印尼新闻网页推荐方法,首先爬取印尼新闻数据,提取每篇印尼新闻中的关键词并将关键词的编号保存至对应印尼新闻的字段中;利用所述印尼新闻数据训练word2vector神经网络模型和doc2vector神经网络模型,分别得到词到向量的映射字典和具有稳定参数的模型;筛选出与当前被浏览的印尼新闻的关键词编号重复最多的p篇印尼新闻,作为候选数据集;利用所述映射字典和模型计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的向量表示;利用所述向量表示计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的距离;利用所述距离进行排序,选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻;本发明能够保证相似性的同时极大减少计算量。
-