网络论坛中热点发现及其演化态势分析方法

    公开(公告)号:CN102270240A

    公开(公告)日:2011-12-07

    申请号:CN201110231560.4

    申请日:2011-08-15

    Abstract: 本发明提供了一种网络论坛中热点发现及其演化态势分析方法,利用爬虫程序提取一个版块内所有帖子的HTML文本;从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);利用公式计算第i个帖子的得分;取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数得到二元组。下面列出拟合的效果以及评价指标:SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。R-square=0.8339。R-square是拟合系数,值越大拟合度越好。RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。对这些指标分析后,可以看出拟合的效果是比较理想的。求出最大的极值点为x0=14;取x1=15>x0,y′(x0)<0故该帖子的热度正在下降。

Patent Agency Ranking