一种基于Transformer和CNN的敏感词检测方法

    公开(公告)号:CN118485069A

    公开(公告)日:2024-08-13

    申请号:CN202410504783.0

    申请日:2024-04-25

    Abstract: 本发明公开了一种基于Transformer和CNN的敏感词检测方法,解决传统的Transformer不能为长距离相关文本信息生成自适应权重,局部语义提取能力不足,在敏感词汇检测中词性理解能力不足的问题,包括:对待检测文本进行数据清洗、文本过滤、分词得到词语;使用 对词语进行填充,然后使用Word2Vec将单词映射到一个向量空间中的Word embeddings;生成每个单词的Position embeddings和Segment embeddings;将得到的三种embeddings分别相加作为Transformer网络的输入、相拼接作为CNN网络的输入进行处理;将Switchable Normalization的输出和最大池化的输出相加进行融合得到融合特征;将融合特征通过全连接层进行信息整合,送入Dropout层进行信息筛选,以0.5倍的权重与Dropout层的输出相加;最后再通过一个全连接层和Softmax进行二分类判别。

Patent Agency Ranking