一种媒体文本相似性检测方法

    公开(公告)号:CN113111645B

    公开(公告)日:2024-02-06

    申请号:CN202110469854.4

    申请日:2021-04-28

    Applicant: 东南大学

    Abstract: 本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。

    一种基于双向传播图的多任务谣言检测方法

    公开(公告)号:CN113094596B

    公开(公告)日:2025-01-28

    申请号:CN202110454550.0

    申请日:2021-04-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

    一种媒体文本相似性检测方法

    公开(公告)号:CN113111645A

    公开(公告)日:2021-07-13

    申请号:CN202110469854.4

    申请日:2021-04-28

    Applicant: 东南大学

    Abstract: 本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。

    一种基于双向传播图的多任务谣言检测方法

    公开(公告)号:CN113111267A

    公开(公告)日:2021-07-13

    申请号:CN202110485893.3

    申请日:2021-04-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

    一种基于双向传播图的多任务谣言检测方法

    公开(公告)号:CN113094596A

    公开(公告)日:2021-07-09

    申请号:CN202110454550.0

    申请日:2021-04-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

Patent Agency Ranking