-
公开(公告)号:CN105138665B
公开(公告)日:2017-06-20
申请号:CN201510557916.1
申请日:2015-09-02
Applicant: 东南大学
CPC classification number: G06F17/30
Abstract: 本发明公开了一种基于改进LDA模型的互联网话题在线挖掘方法,对应一个持续的、流式的、逐段进行的话题挖掘过程,它每次处理n个网页,这些网页通常由网络爬虫以在线、实时的方式从互联网采集得到,对这些网页的内容进行挖掘的结果生成k个话题。在处理完当前n个网页后,对新采集到的n个网页继续进行该过程。主要包括On‑LDA模型超参数的初始化、On‑LDA模型超参数的动态更新、基于On‑LDA模型的互联网话题挖掘等。本发明从根本上改变了传统LDA模型在话题挖掘过程中关于超参数、的赋值方式和使用效果。它充分利用网页内容所属的分类信息来对模型超参数、赋初值,使超参数的初值完全依赖于待挖掘网页内容本身,既简化了计算过程又更具合理性。
-
公开(公告)号:CN105138665A
公开(公告)日:2015-12-09
申请号:CN201510557916.1
申请日:2015-09-02
Applicant: 东南大学
CPC classification number: G06F17/30 , G06F17/30864 , G06F17/2785 , G06F17/30705 , G06F17/30731
Abstract: 本发明公开了一种基于改进LDA模型的互联网话题在线挖掘方法,对应一个持续的、流式的、逐段进行的话题挖掘过程,它每次处理n个网页,这些网页通常由网络爬虫以在线、实时的方式从互联网采集得到,对这些网页的内容进行挖掘的结果生成k个话题。在处理完当前n个网页后,对新采集到的n个网页继续进行该过程。主要包括On-LDA模型超参数的初始化、On-LDA模型超参数的动态更新、基于On-LDA模型的互联网话题挖掘等。本发明从根本上改变了传统LDA模型在话题挖掘过程中关于超参数、的赋值方式和使用效果。它充分利用网页内容所属的分类信息来对模型超参数、赋初值,使超参数的初值完全依赖于待挖掘网页内容本身,既简化了计算过程又更具合理性。
-
公开(公告)号:CN104899273B
公开(公告)日:2017-08-25
申请号:CN201510279762.4
申请日:2015-05-27
Applicant: 东南大学
Abstract: 本发明公开了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘,并计算基于“话题”的网页语义特征向量和用户兴趣特征向量,再利用基于相对熵概念的相似性度量公式,计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度,并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销,同时由于它采用话题而不是关键词来表征网页内容,所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
-
公开(公告)号:CN104899273A
公开(公告)日:2015-09-09
申请号:CN201510279762.4
申请日:2015-05-27
Applicant: 东南大学
CPC classification number: G06F17/30867 , G06F17/2785 , G06F17/3089
Abstract: 本发明公开了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent?Dirichlet?Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘,并计算基于“话题”的网页语义特征向量和用户兴趣特征向量,再利用基于相对熵概念的相似性度量公式,计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度,并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销,同时由于它采用话题而不是关键词来表征网页内容,所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
-
-
-