-
公开(公告)号:CN103092975A
公开(公告)日:2013-05-08
申请号:CN201310029853.3
申请日:2013-01-25
Applicant: 武汉大学
Abstract: 本发明提供一种基于主题共识覆盖率的网络社区垃圾信息自动检测与过滤方法,属于数据质量的研究范畴,涉及用户行为特征研究、网络信息质量评估、文本内容的特征值提取、文本分类模型的建立与优化等技术领域,主要针对网络社区垃圾信息尚无有效的自动检测与过滤机制的情况,建立了垃圾信息检测模型,根据主贴内容和正常回复内容构建了主题趋同性约束关系,提出了待检测内容的主题共识覆盖率特征值并将其运用到文本分类器,从而实现了网络社区垃圾信息的自动检测与过滤。本方法可广泛应用于网络社区质量管理中的各类内容甄别问题,对无关广告、无效内容甚至恶意言论进行自动判断与清理,在一定程度上提高网络社区信息质量。