-
公开(公告)号:CN105138665A
公开(公告)日:2015-12-09
申请号:CN201510557916.1
申请日:2015-09-02
Applicant: 东南大学
CPC classification number: G06F17/30 , G06F17/30864 , G06F17/2785 , G06F17/30705 , G06F17/30731
Abstract: 本发明公开了一种基于改进LDA模型的互联网话题在线挖掘方法,对应一个持续的、流式的、逐段进行的话题挖掘过程,它每次处理n个网页,这些网页通常由网络爬虫以在线、实时的方式从互联网采集得到,对这些网页的内容进行挖掘的结果生成k个话题。在处理完当前n个网页后,对新采集到的n个网页继续进行该过程。主要包括On-LDA模型超参数的初始化、On-LDA模型超参数的动态更新、基于On-LDA模型的互联网话题挖掘等。本发明从根本上改变了传统LDA模型在话题挖掘过程中关于超参数、的赋值方式和使用效果。它充分利用网页内容所属的分类信息来对模型超参数、赋初值,使超参数的初值完全依赖于待挖掘网页内容本身,既简化了计算过程又更具合理性。
-
公开(公告)号:CN104731887A
公开(公告)日:2015-06-24
申请号:CN201510110009.2
申请日:2015-03-13
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种协同过滤中的用户相似度度量方法。本发明建立用户数值属性与用户分类属性之间的联系,采用聚类算法挖掘用户分组,综合考虑用户分组信息与用户对物品的评分信息预测用户的潜在兴趣,从而完成面向用户的个性化推荐。本发明提供的方法优势在于能够提高用户之间相似度度量的准确度,提高用户兴趣挖掘的精度,增加网络用户体验度。
-