Patent search ap:("喀什地区电子信息产业技术研究院") AND inv:"张永磊" Page 1

1.

发明公开
一种基于Transformer和CNN的敏感词检测方法审中-实审

公开(公告)号：CN118485069A

公开(公告)日：2024-08-13

申请号：CN202410504783.0

申请日：2024-04-25

Applicant: 喀什地区电子信息产业技术研究院

Inventor： 梁小松 , 贾召钱 , 张永磊 , 文鹏 , 冯磊 , 钟文

IPC: G06F40/284 , G06N3/0464 , G06N3/0455 , G06F18/10 , G06F18/25 , G06F18/2433 , G06F40/289 , G06F40/30

Abstract: 本发明公开了一种基于Transformer和CNN的敏感词检测方法，解决传统的Transformer不能为长距离相关文本信息生成自适应权重，局部语义提取能力不足，在敏感词汇检测中词性理解能力不足的问题，包括：对待检测文本进行数据清洗、文本过滤、分词得到词语；使用对词语进行填充，然后使用Word2Vec将单词映射到一个向量空间中的Word embeddings；生成每个单词的Position embeddings和Segment embeddings；将得到的三种embeddings分别相加作为Transformer网络的输入、相拼接作为CNN网络的输入进行处理；将Switchable Normalization的输出和最大池化的输出相加进行融合得到融合特征；将融合特征通过全连接层进行信息整合，送入Dropout层进行信息筛选，以0.5倍的权重与Dropout层的输出相加；最后再通过一个全连接层和Softmax进行二分类判别。

Patent Agency Ranking