-
公开(公告)号:CN114330322B
公开(公告)日:2024-12-31
申请号:CN202210006117.5
申请日:2022-01-05
Applicant: 北京邮电大学
IPC: G06F40/279 , G06F40/221 , G06F40/30 , G06F16/951 , G06F16/33 , G06N3/098 , G06N3/0985 , G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/048
Abstract: 本发明公开了一种基于深度学习的威胁情报信息抽取方法,包括以下步骤:S1、情报采集:收集APT报告,对不同源分析网页结构设计web爬虫调用Request库完成非结构化情报文本的采集,设计布隆过滤器实现url的去重处理;S2、预处理:根据文章长度和关键词密度对输入的数据进行筛选,采用YEEDA对筛选出的APT报告进行实体关系标注;S3、实体关系抽取:对预处理好的非结构化APT报告抽取有价值的实体关系三元组。本发明的威胁情报信息抽取方法,通过调整深度神经网络模型并提出一种新的序列标注方法与实体关系抽取规则,解决当前威胁情报实体关系抽取系统存在传播误差以及模型对重叠关系实体抽取准确率不高的问题,同时给出了大规模威胁情报数据集构建以及预处理的细节。
-
公开(公告)号:CN114330322A
公开(公告)日:2022-04-12
申请号:CN202210006117.5
申请日:2022-01-05
Applicant: 北京邮电大学
IPC: G06F40/279 , G06F40/221 , G06F40/30 , G06F16/951 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的威胁情报信息抽取方法,包括以下步骤:S1、情报采集:收集APT报告,对不同源分析网页结构设计web爬虫调用Request库完成非结构化情报文本的采集,设计布隆过滤器实现url的去重处理;S2、预处理:根据文章长度和关键词密度对输入的数据进行筛选,采用YEEDA对筛选出的APT报告进行实体关系标注;S3、实体关系抽取:对预处理好的非结构化APT报告抽取有价值的实体关系三元组。本发明的威胁情报信息抽取方法,通过调整深度神经网络模型并提出一种新的序列标注方法与实体关系抽取规则,解决当前威胁情报实体关系抽取系统存在传播误差以及模型对重叠关系实体抽取准确率不高的问题,同时给出了大规模威胁情报数据集构建以及预处理的细节。
-