-
公开(公告)号:CN113111645B
公开(公告)日:2024-02-06
申请号:CN202110469854.4
申请日:2021-04-28
Applicant: 东南大学
IPC: G06F40/279 , G06F40/216 , G06F16/951
Abstract: 本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。
-
公开(公告)号:CN113094596B
公开(公告)日:2025-01-28
申请号:CN202110454550.0
申请日:2021-04-26
Applicant: 东南大学
IPC: G06F16/9536 , G06F18/214 , G06F18/2415 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。
-
公开(公告)号:CN113111645A
公开(公告)日:2021-07-13
申请号:CN202110469854.4
申请日:2021-04-28
Applicant: 东南大学
IPC: G06F40/279 , G06F40/216 , G06F16/951
Abstract: 本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。
-
公开(公告)号:CN113111267A
公开(公告)日:2021-07-13
申请号:CN202110485893.3
申请日:2021-04-30
Applicant: 东南大学
IPC: G06F16/9536 , G06F40/216 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。
-
公开(公告)号:CN113094596A
公开(公告)日:2021-07-09
申请号:CN202110454550.0
申请日:2021-04-26
Applicant: 东南大学
IPC: G06F16/9536 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。
-
-
-
-