一种基于BERT的违规文本识别算法及装置

    公开(公告)号:CN113011171A

    公开(公告)日:2021-06-22

    申请号:CN202110246185.4

    申请日:2021-03-05

    Abstract: 本申请提供的一种基于BERT的违规文本识别算法及装置,所述违规文本识别装置用于执行所述违规文本识别算法的步骤,利用关键词匹配算法获得获得敏感文本;将敏感文本输入到BERT文本识别模型,获得敏感文本对应的概率分布;对敏感文本进行概率分布分析及阈值过滤,识别出违规文本;以及对敏感文本进行概率分布分析,获得待定文本,通过对待定文本进行相似度过滤,确定待定文本标记是否为违规文本。本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。

    一种基于主题词语义相似度的话题聚类方法

    公开(公告)号:CN114691861A

    公开(公告)日:2022-07-01

    申请号:CN202011576986.9

    申请日:2020-12-28

    Abstract: 本申请公开了一种基于主题词语义相似度的话题聚类方法,该方法对每个原始标题进行预处理,获取待聚类标题集合,然后提取目标待聚类标题对应的多个主题词,根据预设的排除词集合及每个待聚类标题对应的多个主题词,生成主题集合,对主题集合中的任一主题对象进行文本数字化处理,获取主题向量化集合,针对目标主题向量化对象,从主题向量化集合中筛选出相似的主题向量化对象,并将目标主题向量化对象与相似的主题向量化对象作为同种话题实现聚类。上述方法在针对大量网络文本数据时,不需要指定K值,通过提取主题词,然后计算相似度,便可以实现话题聚类,且能够保证聚类的主题相似,话题相近,具有覆盖范围大,计算复杂度低的优点。

    一种基于BERT的违规文本识别算法及装置

    公开(公告)号:CN113011171B

    公开(公告)日:2024-11-29

    申请号:CN202110246185.4

    申请日:2021-03-05

    Abstract: 本申请提供的一种基于BERT的违规文本识别算法及装置,所述违规文本识别装置用于执行所述违规文本识别算法的步骤,利用关键词匹配算法获得获得敏感文本;将敏感文本输入到BERT文本识别模型,获得敏感文本对应的概率分布;对敏感文本进行概率分布分析及阈值过滤,识别出违规文本;以及对敏感文本进行概率分布分析,获得待定文本,通过对待定文本进行相似度过滤,确定待定文本标记是否为违规文本。本申请实施例提供的违规文本识别算法,结合关键词匹配算法,通过概率分布的分析与阈值过滤,以及相似度过滤的纠错,有效提高了违规文本识别的准确性,与单一情感分类方法相比,所花费的人力成本和时间成本更低,具有更高的文本识别效率。

Patent Agency Ranking