一种基于改进Bert模型的信息安全漏洞分类方法

    公开(公告)号:CN113961933A

    公开(公告)日:2022-01-21

    申请号:CN202111227292.9

    申请日:2021-10-21

    Applicant: 南通大学

    Abstract: 本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法,包括步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为 ;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现;本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。

    一种基于改进Bert模型的信息安全漏洞分类方法

    公开(公告)号:CN113961933B

    公开(公告)日:2024-07-23

    申请号:CN202111227292.9

    申请日:2021-10-21

    Applicant: 南通大学

    Abstract: 本发明涉及信息安全和自然语言处理技术领域,具体涉及一种基于改进Bert模型的信息安全漏洞分类方法,包括步骤a、数据预处理,从语料库中搜集所有漏洞信息数据作为数据集,通过过滤和清洗的方式对数据集进行预处理,其数据集格式为 ;采用分词方式将数据集分为一个个字作为输入序列X=(x1,x2,…,xn)。本发明首先对数据进行清洗和过滤,剔除数据集中的噪音数据,可提升信息安全漏洞分类模型的表现;本发明其次引入基于预训练的Bert模型对漏洞进行分类;最后在词嵌入层加入对抗训练FGM、双向编码器后加入多样本随机丢弃(multi‑sample dropout)和标签平滑Focal Loss等技巧提升模型鲁棒性和泛化能力,进一步提升漏洞分类的准确率。

Patent Agency Ranking