-
公开(公告)号:CN110738047A
公开(公告)日:2020-01-31
申请号:CN201910828734.1
申请日:2019-09-03
Applicant: 华中科技大学
IPC: G06F40/289 , G06F40/279 , G06F16/35 , G06F16/9535 , G06F16/9536 , G06F16/9537 , G06K9/62 , G06Q50/00
Abstract: 本发明公开了一种基于图文数据与时间效应的微博用户兴趣挖掘方法及系统,属于数据挖掘领域,包括:对于任意一个用户u,获得待分析的历史微博集合;每一条历史微博,提取其中的文本和图片后,从文本提取词汇特征向量,从图片提取图片语义特征向量,并组合为该微博的微博特征向量;利用基于Single-Pass的多阶段不完全聚类方法对历史微博集合进行聚类,得到多个微博簇;根据聚类结果生成微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在各主题上的倾向概率。本发明能够全面、准确地表达微博用户的兴趣倾向。
-
公开(公告)号:CN110738047B
公开(公告)日:2021-04-20
申请号:CN201910828734.1
申请日:2019-09-03
Applicant: 华中科技大学
IPC: G06F40/289 , G06F40/279 , G06F16/35 , G06F16/9535 , G06F16/9536 , G06F16/9537 , G06K9/62 , G06Q50/00
Abstract: 本发明公开了一种基于图文数据与时间效应的微博用户兴趣挖掘方法及系统,属于数据挖掘领域,包括:对于任意一个用户u,获得待分析的历史微博集合;每一条历史微博,提取其中的文本和图片后,从文本提取词汇特征向量,从图片提取图片语义特征向量,并组合为该微博的微博特征向量;利用基于Single‑Pass的多阶段不完全聚类方法对历史微博集合进行聚类,得到多个微博簇;根据聚类结果生成微博簇‑词汇矩阵,并利用已训练好的主题模型将其分解为微博簇‑主题概率分布矩阵和主题‑词汇概率分布矩阵,同时得到K个主题;利用拟合时间函数对微博簇‑主题概率分布矩阵进行降维,以得到用户u在各主题上的倾向概率。本发明能够全面、准确地表达微博用户的兴趣倾向。
-