-
公开(公告)号:CN119150869B
公开(公告)日:2025-04-15
申请号:CN202411190952.4
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/09
Abstract: 本发明公开了一种区分网络安全数据命名实体识别难易度的方法,属于网络数据安全技术领域。解决了现有技术中传统的命名实体识别方法难以有效区分数据难易度的问题;本发明包括以下步骤:S1.构建基于规则的判别器,输入数据集,通过难度指标评估句子中实体的复杂性,得到总难度分数,对数据集中的数据进行分类,得到分类结果;S2.构建预训练模型,设置基于预训练模型的数据判别器对分类结果进行验证,得到最终的命名实体识别分类结果。本发明有效提升了识别数据集中具有挑战性的实例的整体准确性,能够区分数据难易度,增强了数据分类结果的鲁棒性,减轻了预训练模型特定的偏差,可以应用于网络安全数据处理。
-
公开(公告)号:CN119167936A
公开(公告)日:2024-12-20
申请号:CN202411190960.9
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 基于BERT预训练模型的网络安全NER数据增广方法、电子设备及存储介质,属于网络安全数据处理技术领域。为提高网络安全数据的效率和准确度,本发明采集网络空间安全报告,得到网络空间安全数据;使用BIO方法标注采集的网络空间安全报告,得到的文本序列和标签序列,作为原始数据集;构建BERT预训练模型;将网络空间安全数据进行掩码处理,然后输入到BERT预训练模型中进行训练,得到用于网络安全NER数据的BERT训练模型;将原始数据集进行掩码处理,输入到用于网络安全NER数据的BERT训练模型,将得到的用于网络安全NER数据的BERT训练结果和步骤S2得到的原始数据集进行合并后得到增广数据集。
-
公开(公告)号:CN112883938B
公开(公告)日:2024-08-23
申请号:CN202110379085.9
申请日:2021-04-08
Applicant: 哈尔滨工业大学
IPC: G06F40/284 , G06F17/18 , G06F17/16 , G06Q50/18
Abstract: 本发明提出了一种基于规范化张量分解的司法案例建模方法,涉及一种司法案例建模方法,尤其涉及一种基于规范化张量分解的司法案例建模方法,属于数据处理技术领域。包括以下步骤:步骤一.将司法案例进行模块分割;步骤二.将司法案例模块中的词汇过滤;步骤三.将司法案例模块矩阵化及张量生成;步骤四.将司法案例的原始张量分解为核张量,完成司法案例建模。解决了现有技术中存在的天然缺陷,不利于提高后续预测算法的准确率的技术问题,实现了无需大量的法律专业知识和人工标注工作,对数据库中词汇和语法信息的依赖性不强,能从各个层面描述司法案例,捕捉不同案例模块间的潜在关联,提高后续案例相关预测算法准确率。
-
公开(公告)号:CN119167935B
公开(公告)日:2025-05-06
申请号:CN202411190954.3
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/211 , G06F16/334 , G06N3/0442 , G06N3/08
Abstract: 基于提示学习思想的网络安全命名实体识别模型构建方法、电子设备及存储介质,属于网络安全命名实体识别技术领域。为解决提取信息在面对具体的网络安全实体识别任务时直接应用的问题,本发明采集网络安全数据,得到网络空间安全数据序列,基于标注规则设置标注集合、生成标注序列,所述标注规则包括被标注数据的实体类型及被标注数据不属于任何实体;基于标注规则,对网络空间安全数据序列进行分割处理,然后对应生成标注子序列,得到处理后的网络空间安全数据;定义数据增广规则,对处理后的网络空间安全数据进行数据增广,得到数据增广的网络空间安全数据集;对预训练模型中进行继续预训练和微调操作,得到网络安全命名实体识别数据提取模型。
-
公开(公告)号:CN119167936B
公开(公告)日:2025-04-29
申请号:CN202411190960.9
申请日:2024-08-28
Applicant: 哈尔滨工业大学
IPC: G06F40/295 , G06F40/16 , G06F16/35 , G06N3/0455 , G06N3/045 , G06N3/08
Abstract: 基于BERT预训练模型的网络安全NER数据增广方法、电子设备及存储介质,属于网络安全数据处理技术领域。为提高网络安全数据的效率和准确度,本发明采集网络空间安全报告,得到网络空间安全数据;使用BIO方法标注采集的网络空间安全报告,得到的文本序列和标签序列,作为原始数据集;构建BERT预训练模型;将网络空间安全数据进行掩码处理,然后输入到BERT预训练模型中进行训练,得到用于网络安全NER数据的BERT训练模型;将原始数据集进行掩码处理,输入到用于网络安全NER数据的BERT训练模型,将得到的用于网络安全NER数据的BERT训练结果和步骤S2得到的原始数据集进行合并后得到增广数据集。
-
公开(公告)号:CN118733767B
公开(公告)日:2025-02-25
申请号:CN202410745742.0
申请日:2024-06-11
Applicant: 哈尔滨工业大学
IPC: G06F16/353 , G06F16/3332 , G06F16/334 , G06F16/335 , G06F40/216 , G06F40/284 , G06F18/214 , G06N5/045
Abstract: 本发明提出一种基于可解释扰动策略的中文法律对抗文本生成方法,属于对抗文本生成技术领域。包括:对法律文本进行法律知识提取;基于法律知识为文本中每个词语的重要性进行打分并排序;为待添加扰动的文本选择需要执行的扰动策略;执行扰动策略生成法律对抗文本。本发明解决了现有技术中存在缺少面向法律罪名分类任务的对抗文本生成方法的技术问题。本发明首先提取每类罪名的主要特征作为先验知识,然后将先验知识与强化相似标签和弱化原标签两种扰动策略结合,通过强化与原标签相似的标签的独有特征或弱化原标签自身的独有特征来生成对抗文本,这使得对抗文本的生成过程具有可解释性。
-
公开(公告)号:CN118607514B
公开(公告)日:2025-01-21
申请号:CN202410688599.6
申请日:2024-05-30
Applicant: 哈尔滨工业大学 , 安天科技集团股份有限公司
IPC: G06F40/226 , G06F40/284 , G06F40/242 , G06F40/247 , G06F18/2431 , G06N3/045 , G06N3/096 , G06N3/094
Abstract: 本发明提出一种基于OFS对抗文本流畅性评估方法,属于对抗文本流畅性评估技术领域。生成对抗文本,并使用对抗文本攻击目标模型,基于OFS计算对抗文本流畅性分数,评估对抗文本流畅性。对抗文本基于词语重要性框架生成,词语重要性框架包括排序阶段和扰动阶段。排序阶段为文本中每个词语的重要性打分,并将词语按照重要性分数由高到低进行排序,扰动阶段为词语依次添加扰动。利用文本对应的真值标签上的置信度计算重要性分数,若重要性分数大于0,则说明文本中的词语对真值标签有正向影响,即词语为文本中重要词语,反之词语为文本中非重要词语;解决现有技术中存在的对抗文本流畅性评估需耗费大量人力成本的问题,并量化了流畅性评估标准。
-
公开(公告)号:CN118585779B
公开(公告)日:2024-12-27
申请号:CN202410688597.7
申请日:2024-05-30
Applicant: 哈尔滨工业大学 , 安天科技集团股份有限公司
IPC: G06F18/21 , G06F18/214 , G06F40/284 , G06F40/242 , G06F40/247
Abstract: 本发明提出基于ORS面向软标签输出深度学习模型鲁棒性评估方法,属于鲁棒性评估技术领域。包括生成对抗文本,并使用对抗文本攻击目标模型,基于ORS计算目标模型的鲁棒性分数,评估鲁棒性。对抗文本基于词语重要性框架生成,词语重要性框架包括排序阶段和扰动阶段。利用文本对应的真值标签上的置信度计算重要性分数,若重要性分数大于0,则说明文本中的词语对真值标签有正向影响,即词语为文本中重要词语,反之词语为文本中非重要词语;为输出为软标签的目标模型的鲁棒性评估提供了一种可行的解决方案,解决了当前鲁棒性评估方法中评价指标不全面的问题,并量化了输出为软标签的深度学习模型的鲁棒性评估标准。
-
公开(公告)号:CN118607515A
公开(公告)日:2024-09-06
申请号:CN202410688627.4
申请日:2024-05-30
Applicant: 哈尔滨工业大学 , 安天科技集团股份有限公司
IPC: G06F40/226 , G06F40/284 , G06F40/242 , G06F40/247 , G06F18/2431 , G06N3/045 , G06N3/096 , G06N3/094
Abstract: 本发明提出基于ORS面向硬标签输出深度学习模型鲁棒性评估方法,属于鲁棒性评估技术领域。包括生成对抗文本,并使用对抗文本攻击目标模型,基于ORS计算目标模型的鲁棒性分数,评估鲁棒性。对抗文本基于词语重要性框架生成,词语重要性框架包括排序阶段和扰动阶段。排序阶段为文本中每个词语的重要性打分,并将词语按照重要性分数由高到低进行排序,扰动阶段为词语依次添加扰动。利用文本对应的真值标签上的置信度计算重要性分数,若重要性分数大于0,则说明文本中的词语对真值标签有正向影响,即词语为文本中重要词语,反之词语为文本中非重要词语;解决缺少对LLM在对抗攻击条件下的鲁棒性评估的问题,并量化了其鲁棒性评估标准。
-
公开(公告)号:CN118607514A
公开(公告)日:2024-09-06
申请号:CN202410688599.6
申请日:2024-05-30
Applicant: 哈尔滨工业大学 , 安天科技集团股份有限公司
IPC: G06F40/226 , G06F40/284 , G06F40/242 , G06F40/247 , G06F18/2431 , G06N3/045 , G06N3/096 , G06N3/094
Abstract: 本发明提出一种基于OFS对抗文本流畅性评估方法,属于对抗文本流畅性评估技术领域。生成对抗文本,并使用对抗文本攻击目标模型,基于OFS计算对抗文本流畅性分数,评估对抗文本流畅性。对抗文本基于词语重要性框架生成,词语重要性框架包括排序阶段和扰动阶段。排序阶段为文本中每个词语的重要性打分,并将词语按照重要性分数由高到低进行排序,扰动阶段为词语依次添加扰动。利用文本对应的真值标签上的置信度计算重要性分数,若重要性分数大于0,则说明文本中的词语对真值标签有正向影响,即词语为文本中重要词语,反之词语为文本中非重要词语;解决现有技术中存在的对抗文本流畅性评估需耗费大量人力成本的问题,并量化了流畅性评估标准。
-
-
-
-
-
-
-
-
-