-
公开(公告)号:CN106708966B
公开(公告)日:2023-04-25
申请号:CN201611092375.0
申请日:2016-11-29
Applicant: 中国计量大学
IPC: G06F16/335 , G06F18/22 , G06F40/211 , G06F40/242 , G06F40/284
Abstract: 本发明提供了一种基于相似度计算的垃圾评论检测方法,包括下述步骤:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论。步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取等处理,并根据产品说明书,构建产品特征词典。步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。本发明提供了一种的新的垃圾评论检测方法。
-
公开(公告)号:CN106708966A
公开(公告)日:2017-05-24
申请号:CN201611092375.0
申请日:2016-11-29
Applicant: 中国计量大学
CPC classification number: G06F16/3344 , G06F16/335 , G06F16/36 , G06F16/9535 , G06F17/2705 , G06F17/271 , G06F17/2735
Abstract: 本发明提供了一种基于相似度计算的垃圾评论检测方法,包括下述步骤:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论。步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取等处理,并根据产品说明书,构建产品特征词典。步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。本发明提供了一种的新的垃圾评论检测方法。
-