-
公开(公告)号:CN118485069A
公开(公告)日:2024-08-13
申请号:CN202410504783.0
申请日:2024-04-25
Applicant: 喀什地区电子信息产业技术研究院
IPC: G06F40/284 , G06N3/0464 , G06N3/0455 , G06F18/10 , G06F18/25 , G06F18/2433 , G06F40/289 , G06F40/30
Abstract: 本发明公开了一种基于Transformer和CNN的敏感词检测方法,解决传统的Transformer不能为长距离相关文本信息生成自适应权重,局部语义提取能力不足,在敏感词汇检测中词性理解能力不足的问题,包括:对待检测文本进行数据清洗、文本过滤、分词得到词语;使用 对词语进行填充,然后使用Word2Vec将单词映射到一个向量空间中的Word embeddings;生成每个单词的Position embeddings和Segment embeddings;将得到的三种embeddings分别相加作为Transformer网络的输入、相拼接作为CNN网络的输入进行处理;将Switchable Normalization的输出和最大池化的输出相加进行融合得到融合特征;将融合特征通过全连接层进行信息整合,送入Dropout层进行信息筛选,以0.5倍的权重与Dropout层的输出相加;最后再通过一个全连接层和Softmax进行二分类判别。