-
公开(公告)号:CN117609497A
公开(公告)日:2024-02-27
申请号:CN202311343043.5
申请日:2023-10-17
Applicant: 国家计算机网络与信息安全管理中心 , 中网数安(北京)科技有限公司 , 联洋国融(北京)科技有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/22 , G06F18/2431
Abstract: 本发明提供一种文本有害内容无监督识别方法及装置。所述方法包括:获取待识别的多个文本,计算每个待识别文本的特征向量;计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词;计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别。本发明通过构建有害文本分类库,并通过相似度计算,能够对文本中的有害内容进行无监督识别,解决了基于有监督学习的现有识别方法存在的需要不断地对新的大量文本数据进行标注,耗费大量的人工和时间的问题。