-
公开(公告)号:CN119150869B
公开(公告)日:2025-04-15
申请号:CN202411190952.4
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/09
Abstract: 本发明公开了一种区分网络安全数据命名实体识别难易度的方法,属于网络数据安全技术领域。解决了现有技术中传统的命名实体识别方法难以有效区分数据难易度的问题;本发明包括以下步骤:S1.构建基于规则的判别器,输入数据集,通过难度指标评估句子中实体的复杂性,得到总难度分数,对数据集中的数据进行分类,得到分类结果;S2.构建预训练模型,设置基于预训练模型的数据判别器对分类结果进行验证,得到最终的命名实体识别分类结果。本发明有效提升了识别数据集中具有挑战性的实例的整体准确性,能够区分数据难易度,增强了数据分类结果的鲁棒性,减轻了预训练模型特定的偏差,可以应用于网络安全数据处理。
-
公开(公告)号:CN119204011A
公开(公告)日:2024-12-27
申请号:CN202411190945.4
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于预训练模型的网络安全命名实体识别数据增广方法,属于网络数据安全技术领域。解决了现有技术中传统的网络安全命名实体识别数据增广方法易导致识别文本语义错误的问题;本发明给定标注集合和输入序列,根据标注规则生成标注序列,对输入序列进行分句处理;对输入序列的文本片段的长度进行替换,得到片段集合;根据标注集合,对片段集合进行掩码操作,得到新片段集合,利用BERT模型对新片段集合进行预测,得到增广后的数据集;使用BERT模型计算得到连续概率并搜索相邻句子概率矩阵打乱句子顺序,得到最终增广后的数据集。本发明有效提升了所生成增广数据的质量,减少了过拟合现象,可以应用于数据增广。
-
公开(公告)号:CN119167936A
公开(公告)日:2024-12-20
申请号:CN202411190960.9
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 基于BERT预训练模型的网络安全NER数据增广方法、电子设备及存储介质,属于网络安全数据处理技术领域。为提高网络安全数据的效率和准确度,本发明采集网络空间安全报告,得到网络空间安全数据;使用BIO方法标注采集的网络空间安全报告,得到的文本序列和标签序列,作为原始数据集;构建BERT预训练模型;将网络空间安全数据进行掩码处理,然后输入到BERT预训练模型中进行训练,得到用于网络安全NER数据的BERT训练模型;将原始数据集进行掩码处理,输入到用于网络安全NER数据的BERT训练模型,将得到的用于网络安全NER数据的BERT训练结果和步骤S2得到的原始数据集进行合并后得到增广数据集。
-
公开(公告)号:CN112883938B
公开(公告)日:2024-08-23
申请号:CN202110379085.9
申请日:2021-04-08
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06F17/18 , G06F17/16 , G06Q50/18
Abstract: 本发明提出了一种基于规范化张量分解的司法案例建模方法,涉及一种司法案例建模方法,尤其涉及一种基于规范化张量分解的司法案例建模方法,属于数据处理技术领域。包括以下步骤:步骤一.将司法案例进行模块分割;步骤二.将司法案例模块中的词汇过滤;步骤三.将司法案例模块矩阵化及张量生成;步骤四.将司法案例的原始张量分解为核张量,完成司法案例建模。解决了现有技术中存在的天然缺陷,不利于提高后续预测算法的准确率的技术问题,实现了无需大量的法律专业知识和人工标注工作,对数据库中词汇和语法信息的依赖性不强,能从各个层面描述司法案例,捕捉不同案例模块间的潜在关联,提高后续案例相关预测算法准确率。
-
公开(公告)号:CN117540746B
公开(公告)日:2024-07-19
申请号:CN202311709913.6
申请日:2023-12-13
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/169 , G06F18/214 , G06F18/21 , G06N3/048 , G06N3/0455 , G06N3/096
Abstract: 一种基于多任务迁移的众包命名实体识别个性化提示微调方法及系统,属于众包命名实体识别技术领域。本发明为了解决使用现有的提示方法在众包场景下进行提示微调时识别准确率低、识别效果差的问题而提出的。技术要点:先构建个性化提示生成器:个性化提示生成器针对每个标注者构建私有提示,针对所有标注者构建公有提示,初始化后经过训练过程得到用于预测的私有提示、公有提示,二者再生成最终软提示,最终软提示再通过提示生成网络生成三种注意力机制对应的K、V;再将K、V输入给基于软提示微调的Transformer构架下的模型,得到参数改变后的预训练模型。实验证明,我们提出的PPG能够显著提升已有基于预训练模型的软提示微调命名实体识别方法在众包数据上的效果。
-
公开(公告)号:CN114372267B
公开(公告)日:2024-05-28
申请号:CN202111340418.3
申请日:2021-11-12
Applicant: 哈尔滨工业大学 , 上海浦东发展银行股份有限公司
Inventor: 余翔湛 , 刘立坤 , 陈巍 , 史建焘 , 葛蒙蒙 , 叶麟 , 于喜东 , 王永强 , 冯帅 , 赵跃 , 王久金 , 宋赟祖 , 郭明昊 , 胡智超 , 苗钧重 , 刘凡 , 李精卫 , 石开宇 , 韦贤葵 , 孔德文 , 羿天阳 , 刘奉哲 , 李竑杰
IPC: G06F21/56 , G06F16/955 , G06F16/951 , G06F16/9535 , G06F40/284 , G06F40/216
Abstract: 本发明提出一种基于静态域的恶意网页识别检测方法、计算机及存储介质,属于网页识别检测技术领域。包括步骤一、实时监听网页流量,提取HTTP头部的URL地址;步骤二、将URL地址与黑名单库中存储的URL地址进行匹配;步骤三、解析匹配失败的网页流量;步骤四、爬取解析后的网页流量中的JS、CSS文件;步骤五、提取目标网页的网页指纹;步骤六、识别网页流量;步骤七、比较两个网页的URL地址;若URL地址相同,说明流量中的网页为正常网页,保存匹配日志;若URL地址不同,说明流量中的网页为恶意网页,进行阻断。解决不能适用于实际应用中实时检测的需要的技术问题。实现了降低网页匹配过程的时间成本的技术效果。
-
公开(公告)号:CN114158039B
公开(公告)日:2024-04-12
申请号:CN202111531017.6
申请日:2021-12-14
Applicant: 哈尔滨工业大学 , 安天科技集团股份有限公司
IPC: H04W12/02 , H04W4/80 , H04L43/062
Abstract: 一种低功耗蓝牙加密通信的流量分析方法、系统、计算机及存储介质,属于蓝牙加密通信技术领域。利用无线电平台在BLE主从设备加密会话正式建立前获得connect_req数据包和配置信息,进而捕获破解密文数据获得明文数据。对照明文数据与密文数据,根据BLE芯片在接收指令变化时数据包传输过程时间间隔会产生抖动,提取多个操作改变导致抖动按时序进行组合形成抖动组合,将抖动组合进行均一化处理构建矩阵,通过特征工程确定流量分析模型的输入,构造基于集成方法的机器学习模型,完成对BLE加密通信的操作或指令的判别,实现对BLE加密通信的流量分析。解决无法对BLE加密通信过程中捕获特征单一的加密数据进行流量分析的问题。
-
公开(公告)号:CN117540746A
公开(公告)日:2024-02-09
申请号:CN202311709913.6
申请日:2023-12-13
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/169 , G06F18/214 , G06F18/21 , G06N3/048 , G06N3/0455 , G06N3/096
Abstract: 一种基于多任务迁移的众包命名实体识别个性化提示微调方法及系统,属于众包命名实体识别技术领域。本发明为了解决使用现有的提示方法在众包场景下进行提示微调时识别准确率低、识别效果差的问题而提出的。技术要点:先构建个性化提示生成器:个性化提示生成器针对每个标注者构建私有提示,针对所有标注者构建公有提示,初始化后经过训练过程得到用于预测的私有提示、公有提示,二者再生成最终软提示,最终软提示再通过提示生成网络生成三种注意力机制对应的K、V;再将K、V输入给基于软提示微调的Transformer构架下的模型,得到参数改变后的预训练模型。实验证明,我们提出的PPG能够显著提升已有基于预训练模型的软提示微调命名实体识别方法在众包数据上的效果。
-
公开(公告)号:CN116775127A
公开(公告)日:2023-09-19
申请号:CN202310598471.6
申请日:2023-05-25
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于RetroWrite框架的静态符号执行插桩方法,属于计算机技术领域。解决了现有技术中符号执行插桩方法在闭源程序运行时开销较大的问题;本发明包括以下步骤:S1.访问闭源的C/C++程序中的各个用户自定义函数;S2.访问函数中的各个基本块;S3.顺序访问指令;S4.进行指令级插桩,为赋值、调用、运算和条件类指令进行功能插桩;S5.进行基本块插桩,在基本块的出口进行辅助插桩;S6.进行函数级插桩,在函数的入口和出口进行辅助插桩。本发明面向闭源程序通用高效,有效降低了运行时非求解开销,在扩展使用范围的同时,提高了混合模糊测试的速度,可以应用于软件测试。
-
公开(公告)号:CN111045785B
公开(公告)日:2023-04-07
申请号:CN201911169998.7
申请日:2019-11-25
Applicant: 哈尔滨工业大学
Abstract: 一种基于二进制引力搜索的节能虚拟机放置方法,属于节能优化的云计算领域。本发明的目的是为了实现在虚拟机放置降低能耗,同时提高云计算性能。技术要点:初始化;随机设置每个智能体的位置,确保位置在搜索空间中即可;在每次迭代中,我们计算初始位置的所有智能体的适应度,如果本轮迭代中的适应度高于上一轮迭代的适应度,则更新;对于每个智能体,都根据新的适应度计算质量,引力常数也会随着迭代次数的增加而更新,即随着时间的变化,重力值也会随之变化;用新质量和重力值计算加速度;在搜索空间中移动智能体的位置。虚拟机放置降低能耗,同时提高云计算性能。
-
-
-
-
-
-
-
-
-