-
公开(公告)号:CN119167935A
公开(公告)日:2024-12-20
申请号:CN202411190954.3
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/211 , G06F16/33 , G06N3/0442 , G06N3/08
Abstract: 基于提示学习思想的网络安全命名实体识别模型构建方法、电子设备及存储介质,属于网络安全命名实体识别技术领域。为解决提取信息在面对具体的网络安全实体识别任务时直接应用的问题,本发明采集网络安全数据,得到网络空间安全数据序列,基于标注规则设置标注集合、生成标注序列,所述标注规则包括被标注数据的实体类型及被标注数据不属于任何实体;基于标注规则,对网络空间安全数据序列进行分割处理,然后对应生成标注子序列,得到处理后的网络空间安全数据;定义数据增广规则,对处理后的网络空间安全数据进行数据增广,得到数据增广的网络空间安全数据集;对预训练模型中进行继续预训练和微调操作,得到网络安全命名实体识别数据提取模型。
-
公开(公告)号:CN119167936A
公开(公告)日:2024-12-20
申请号:CN202411190960.9
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 基于BERT预训练模型的网络安全NER数据增广方法、电子设备及存储介质,属于网络安全数据处理技术领域。为提高网络安全数据的效率和准确度,本发明采集网络空间安全报告,得到网络空间安全数据;使用BIO方法标注采集的网络空间安全报告,得到的文本序列和标签序列,作为原始数据集;构建BERT预训练模型;将网络空间安全数据进行掩码处理,然后输入到BERT预训练模型中进行训练,得到用于网络安全NER数据的BERT训练模型;将原始数据集进行掩码处理,输入到用于网络安全NER数据的BERT训练模型,将得到的用于网络安全NER数据的BERT训练结果和步骤S2得到的原始数据集进行合并后得到增广数据集。
-
公开(公告)号:CN119167935B
公开(公告)日:2025-05-06
申请号:CN202411190954.3
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/211 , G06F16/334 , G06N3/0442 , G06N3/08
Abstract: 基于提示学习思想的网络安全命名实体识别模型构建方法、电子设备及存储介质,属于网络安全命名实体识别技术领域。为解决提取信息在面对具体的网络安全实体识别任务时直接应用的问题,本发明采集网络安全数据,得到网络空间安全数据序列,基于标注规则设置标注集合、生成标注序列,所述标注规则包括被标注数据的实体类型及被标注数据不属于任何实体;基于标注规则,对网络空间安全数据序列进行分割处理,然后对应生成标注子序列,得到处理后的网络空间安全数据;定义数据增广规则,对处理后的网络空间安全数据进行数据增广,得到数据增广的网络空间安全数据集;对预训练模型中进行继续预训练和微调操作,得到网络安全命名实体识别数据提取模型。
-
公开(公告)号:CN119167936B
公开(公告)日:2025-04-29
申请号:CN202411190960.9
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 基于BERT预训练模型的网络安全NER数据增广方法、电子设备及存储介质,属于网络安全数据处理技术领域。为提高网络安全数据的效率和准确度,本发明采集网络空间安全报告,得到网络空间安全数据;使用BIO方法标注采集的网络空间安全报告,得到的文本序列和标签序列,作为原始数据集;构建BERT预训练模型;将网络空间安全数据进行掩码处理,然后输入到BERT预训练模型中进行训练,得到用于网络安全NER数据的BERT训练模型;将原始数据集进行掩码处理,输入到用于网络安全NER数据的BERT训练模型,将得到的用于网络安全NER数据的BERT训练结果和步骤S2得到的原始数据集进行合并后得到增广数据集。
-
公开(公告)号:CN119071197A
公开(公告)日:2024-12-03
申请号:CN202411234272.8
申请日:2024-09-04
Applicant: 哈尔滨工业大学
IPC: H04L43/0876 , H04L43/026 , H04L43/028 , H04L43/04
Abstract: 一种基于阻尼增量统计与Selenium的流量元数据提取方法,属于流量元数据提取技术领域。为解决扩充原始流量数据量,以及准确高效的提取流量元数据特征的问题,本发明包括基于Selenium生成原始流量;基于Scapy对生成的原始流量进行原始流量采集,得到原始流量文件;将得到的原始流量文件,首先进行预处理,然后进行基于深度包检测的数据包元数据提取,得到数据包级元数据;对得到的数据包级元数据,首先进行预处理,然后基于元数据聚合与阻尼增量统计生成会话元数据。本发明在流量生成过程中较好的模拟了用户在现实网络环境中的行为,提取过程中较为全面的考虑到了数据包级别与会话级别的特征元数据,并制定了快速提取的方法。
-
-
-
-