一种基于基因演化的涉密敏感信息检测方法

    公开(公告)号:CN116976336A

    公开(公告)日:2023-10-31

    申请号:CN202310952911.3

    申请日:2023-07-31

    Abstract: 本发明公开了一种基于基因演化的涉密敏感信息检测方法,包括以下步骤:步骤1:对文本数据进行预处理,然后进行涉密敏感词标注得到结构化的文本;步骤2:将步骤1得到的文本输入ERNIE‑BiLSTM‑CRF模型进行训练得到涉密敏感信息检测模型;步骤3:采用人工免疫算法对涉密敏感词向量进行基因演化,得到面向涉密敏感信息的检测器;步骤4:将步骤1得到的文本输入步骤2得到的涉密敏感信息检测模型,若文本含有已知涉密敏感信息则通过涉密敏感信息检测模型进行检测;若含有涉密敏感信息检测模型无法识别的文本,则采用步骤3得到的检测器进行检测;本发明具有涉密敏感信息分类的高准确性,能够实现对未知涉密敏感信息的识别,提高了涉密敏感信息检测的鲁棒性。

Patent Agency Ranking