-
公开(公告)号:CN113961933A
公开(公告)日:2022-01-21
申请号:CN202111227292.9
申请日:2021-10-21
Applicant: 南通大学
Abstract: 本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法,包括步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为 ;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现;本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。
-
公开(公告)号:CN113961933B
公开(公告)日:2024-07-23
申请号:CN202111227292.9
申请日:2021-10-21
Applicant: 南通大学
IPC: G06F21/57 , G06F18/2431 , G06F18/2415 , G06N3/0455 , G06N3/0499 , G06N3/047 , G06N3/09
Abstract: 本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法,包括步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为 ;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现;本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。
-