一种基于预训练模型的网络安全命名实体识别数据增广方法

    公开(公告)号:CN119204011A

    公开(公告)日:2024-12-27

    申请号:CN202411190945.4

    申请日:2024-08-28

    Abstract: 本发明公开了一种基于预训练模型的网络安全命名实体识别数据增广方法,属于网络数据安全技术领域。解决了现有技术中传统的网络安全命名实体识别数据增广方法易导致识别文本语义错误的问题;本发明给定标注集合和输入序列,根据标注规则生成标注序列,对输入序列进行分句处理;对输入序列的文本片段的长度进行替换,得到片段集合;根据标注集合,对片段集合进行掩码操作,得到新片段集合,利用BERT模型对新片段集合进行预测,得到增广后的数据集;使用BERT模型计算得到连续概率并搜索相邻句子概率矩阵打乱句子顺序,得到最终增广后的数据集。本发明有效提升了所生成增广数据的质量,减少了过拟合现象,可以应用于数据增广。

Patent Agency Ranking