-
公开(公告)号:CN113221575A
公开(公告)日:2021-08-06
申请号:CN202110607269.6
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
-
公开(公告)号:CN112422505A
公开(公告)日:2021-02-26
申请号:CN202011090699.7
申请日:2020-10-13
Applicant: 北京理工大学
IPC: H04L29/06
Abstract: 本发明涉及基于高维扩展关键特征向量的网络恶意流量识别方法,属于计算机与信息科学技术领域。本发明首先对网络流量数据进行数据清洗和特征优化表达,采用特征分割与融合的方法从关键字、时段节点、行为组合三个方面构建特征,并进行归一化和标准化处理,获得关键词特征向量、时段特征向量、行为特征向量,顺序拼接获得高维扩展特征向量;然后结合专家调查法和因子分析法,进行关键影响因素分析,得到特征权重集,剔除冗余特征和混淆特征,提取关键特征向量;最后,对训练好的决策树进行AUC值计算和相似度计算,保留效果最好的决策树构建随机森林模型,实现对网络恶意流量的自动化识别和检测。
-
公开(公告)号:CN112101416A
公开(公告)日:2020-12-18
申请号:CN202010815352.8
申请日:2020-08-13
Applicant: 北京理工大学 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种ICT供应链节点安全风险评级关键属性提取方法,属于属于ICT供应链安全技术领域。本发明首先使用boruta算法分析待选属性的重要性,提取出影响研究目标的重要属性;然后使用待选属性构建stacking模型,得到对研究目标有显著影响的属性;对于两种方法筛选得到属性,结合专家意见,采用交集归类的方法进行属性融合,得到最终的关键属性。本发明使用两个不同方法对影响研究目标的属性进行选择,算法之间差异明显,避免单一方法带来的局限性,提高关键属性的泛化性。
-
公开(公告)号:CN111651993A
公开(公告)日:2020-09-11
申请号:CN202010394579.X
申请日:2020-05-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部-全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明分别在Microsoft Research Asia和E-commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部-全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。
-
公开(公告)号:CN108462717B
公开(公告)日:2020-07-28
申请号:CN201810249326.6
申请日:2018-03-21
Applicant: 北京理工大学
IPC: H04L29/06
Abstract: 本发明涉及基于规则匹配命中率和分布方差的防火墙规则集优化方法,属于计算机与信息科学技术领域。本发明首先对防火墙初始化规则集进行预处理,预处理的内容包括规则集异常检测、异常处理及规则合并,预处理之后得到不存在异常规则的最简防火墙规则集。然后实时收集一段时间防火墙日志,根据防火墙日志信息计算规则权重,规则权重计算分为三个部分,分别是规则匹配命中频率统计、规则命中时间分布统计和根据这两项统计数据计算的规则权重值。最后根据计算出来的规则权重值,对防火墙规则集进行重排序,将权重值较高的规则放在优先级更高的位置。本发明相较于常规的防火墙规则集优化算法,有更好的优化效果,能够使防火墙保持较高的数据包过滤率,并且具备较好的灵活性和可移植性。
-
公开(公告)号:CN110048960A
公开(公告)日:2019-07-23
申请号:CN201910308535.8
申请日:2019-04-17
Applicant: 北京理工大学
IPC: H04L12/851 , H04L12/855 , H04L29/06 , H04L29/12
Abstract: 本发明设计了一种带报文应答的分布式流量生成系统,技术涉及分布式网络系统、传输层TCP和UDP协议栈及其应用层协议解析和报文重构,属于计算机与信息科学技术领域。本发明的目的是为解决目前软件流量生成系统无法提供在渗透测试时可供用户定制的流量应答服务,以及现有软件流量生成系统受单机带宽限制而无法为复杂系统提供用于稳定性测试的大带宽背景流量的问题。本发明在使用时用户可使用针对本系统特意构建的多域高级规则匹配模块,对流量生成规则和报文应答规则进行深度自定义,从而使生成的流量具有高度拟真的特性。同时用户可根据不同的网络拓扑结构部署分布式流量出口,从而可以使生成的流量尽可能充满所有的子网,全面测试网络系统的稳定性和安全性。
-
公开(公告)号:CN109978050A
公开(公告)日:2019-07-05
申请号:CN201910225495.0
申请日:2019-03-25
Applicant: 北京理工大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于SVM‑RF的决策规则提取及约简方法,属于计算机与信息科学技术领域。该方法包括:使用数据训练SVM获得分类器和支持向量;采用再生树的方法生成新数据特征并使用SVM获得新数据标签,整合新数据获得最具信息量数据集;然后使用最具信息量数据集训练随机森林模型,获得多项决策树;通过引入权衡因子将决策树的终端节点相似度和决策树性能相似度融合为新相似度,并基于此相似度对冗余决策树实现约简;最终使用决策树遍历方法获得规则集。由于本发明提供的决策规则提取与约简的方法,既兼顾SVM‑RF模型的较高准确率,又能避免提取出的决策过多而不易于人们理解,从而帮助SVM‑RF模型在实际应用中推广,起到辅助人类决策的作用。
-
公开(公告)号:CN109961143A
公开(公告)日:2019-07-02
申请号:CN201910225341.1
申请日:2019-03-25
Applicant: 北京理工大学
Abstract: 本发明公开了一种RNN模型的逐点损失估计优化方法,属于计算机与信息科学技术领域。该方法包括:按时间顺序将多个时间节点不同的数据集拼接成一个时间序列数据集,被拼接的数据包括各特征值和标签;利用CART决策树算法从拼接数据集中提取重要程度较高的特征,构成新的数据集;对新数据集进行数据重采样,填充各时间节点缺失的数据;基于逐点估计的损失函数训练RNN模型。由于本发明在损失函数的计算中引入了逐点损失估计,因此可以避免因长时间传输造成的信息丢失和误差增加,从而克服RNN在处理长时序列时易出现梯度爆炸或梯度消失的问题。
-
-
公开(公告)号:CN105740238B
公开(公告)日:2019-02-01
申请号:CN201610124157.4
申请日:2016-03-04
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种融合句义信息的事件关系强度图构建方法。首先基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度,并利用改进的TF‑IDF方法完成事件向量表达,再结合上下文信息和核心事件信息优化事件向量,最后利用LDA方法获取事件之间关系强度,设定合适的关系强度阈值,构建事件关系强度图。本发明通过融合句义信息,提供了一种将孤立分散的事件以一种可度量形式关联起来的方法,并通过事件关系强度图直观展示事件间的关系,准确的定位核心事件,有力支撑后续基于事件关系的自动文摘、舆情预测等自然语言处理应用。
-
-
-
-
-
-
-
-
-