二进制代码相似性检测模型的训练/应用方法及设备

    公开(公告)号:CN118133036B

    公开(公告)日:2025-03-11

    申请号:CN202410155396.0

    申请日:2024-02-02

    Applicant: 清华大学

    Inventor: 张超 王皓

    Abstract: 本申请提供一种二进制代码相似性检测模型的训练/应用方法及设备。该训练方法包括:根据开源的二进制代码数据集,建立训练样本集,训练样本集中包括多个基于中间语言的训练样本;根据训练样本集对基于Transformer模型架构的基础模型进行预训练,得到中间语言预训练模型;根据中间语言预训练模型以及训练样本集,训练得到比较模型;根据中间语言预训练模型以及训练样本集,训练得到嵌入模型,嵌入模型包括查询编码器以及参考编码器;根据嵌入模型和比较模型,构建得到能够对二进制代码的相似性进行检测的相似性检测模型。本申请训练得到的相似性检测模型,可以同时提高二进制代码相似性检测的准确性和效率。

    表示学习模型的训练/应用方法、设备及介质

    公开(公告)号:CN118051774A

    公开(公告)日:2024-05-17

    申请号:CN202410153832.0

    申请日:2024-02-02

    Applicant: 清华大学

    Inventor: 张超 王皓

    Abstract: 本申请提供一种表示学习模型的训练/应用方法、设备及介质。该方法包括:从开源仓库中提取多个源代码,并根据多个源代码以及大语言模型,生成训练样本集,训练样本集中的每一样本均包括汇编代码和自然语言文本;根据汇编代码数据集,预训练生成汇编编码器,并根据自然语言数据集,预训练生成文本编码器;根据训练样本集以及对比学习算法,对汇编编码器和文本编码器进行对齐训练,得到语义对齐的代码表示学习模型和自然语言表示学习模型;根据语义对齐的代码表示学习模型和自然语言表示学习模型,构建表示学习模型。本申请的方法,显著提高了表示学习模型的泛化能力和准确性,并且大大减少了模型对样本和大量标注数据依赖。

    一种基于强化学习的智能模糊测试方法、装置及系统

    公开(公告)号:CN115309628A

    公开(公告)日:2022-11-08

    申请号:CN202210682711.6

    申请日:2022-06-16

    Abstract: 本发明公开一种基于强化学习的智能模糊测试方法、装置及系统,所述方法包括:收集到模糊测试中不同种子的程序运行状态后,使用聚类算法对各个程序运行状态进行分类,得到分类结果,并根据所述分类结果得到各个种子状态,所述种子状态为类别标签;收集模糊测试中的历史变异数据;根据所述历史变异数据和所述种子状态进行强化学习,得到变异策略,所述变异策略包括种子状态与变异动作的选择概率分布的映射关系。通过学习,在需要进行动作选择时,将种子输入到变异策略构建的策略网络中,输出变异动作选择策略,使用智能的变异动作对种子进行变异,能够提高能够覆盖更多的程序运行状态的种子的权重,充分探索测试用例,发现更多的安全漏洞。

    表示学习模型的训练/应用方法、设备及介质

    公开(公告)号:CN118051774B

    公开(公告)日:2024-12-10

    申请号:CN202410153832.0

    申请日:2024-02-02

    Applicant: 清华大学

    Inventor: 张超 王皓

    Abstract: 本申请提供一种表示学习模型的训练/应用方法、设备及介质。该方法包括:从开源仓库中提取多个源代码,并根据多个源代码以及大语言模型,生成训练样本集,训练样本集中的每一样本均包括汇编代码和自然语言文本;根据汇编代码数据集,预训练生成汇编编码器,并根据自然语言数据集,预训练生成文本编码器;根据训练样本集以及对比学习算法,对汇编编码器和文本编码器进行对齐训练,得到语义对齐的代码表示学习模型和自然语言表示学习模型;根据语义对齐的代码表示学习模型和自然语言表示学习模型,构建表示学习模型。本申请的方法,显著提高了表示学习模型的泛化能力和准确性,并且大大减少了模型对样本和大量标注数据依赖。

    软件漏洞智能挖掘方法和装置

    公开(公告)号:CN114077742B

    公开(公告)日:2022-12-02

    申请号:CN202111290592.1

    申请日:2021-11-02

    Applicant: 清华大学

    Inventor: 张超 牟思睿 王皓

    Abstract: 本发明提供一种软件漏洞智能挖掘方法和装置,其中,方法包括:并行运行多个策略执行节点;策略生成节点在接收到控制节点的开始指令后,发送初始策略队列至对应的策略执行节点;并行的多个策略执行节点执行初始策略队列生成当前结果反馈,将当前结果反馈发送给策略生成节点;策略生成节点根据当前结果反馈对强化学习智能体进行训练,由强化学习智能体生成新的策略并发送给策略执行节点;策略执行节点根据新的策略生成新结果反馈并反馈发送给策略生成节点;将新的结果反馈作为当前结果反馈,重复上述步骤。本发明通过为目标被测软件动态选择更优的模糊测试策略,使得并行模糊测试总体上的效率始终处于较高状态,避免单个固定策略存在的困境。

    用于数据挖掘的具有冗余剔除能力的混合特征选择方法

    公开(公告)号:CN101030219A

    公开(公告)日:2007-09-05

    申请号:CN200710065196.2

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 本发明涉及一种用于数据挖掘的具有冗余剔除能力的混合特征选择方法,属于数据挖掘技术领域。该法对输入属性集合F进行前进搜索,用基于帕森窗的统一型互信息估计方法计算信息增益比(见式1)来选择特征属性,对已选属性集合S进行后退搜索,用基于帕森窗的统一型互信息估计法计算信息减少值(见式2)来动态剔除冗余属性。本发明方法,统称为PGFB法,其优点是:能够直接处理目标属性为连续属性的回归问题;能够直接处理输入属性为离散、连续属性混合的情况;能够动态剔除冗余属性,得到全局最优解。采用本方法从数据表大量候选属性中选出少量特征属性作为数据挖掘的输入属性,不但可以提高数据挖掘的速度,还可提高数据挖掘的精度。

    软件漏洞智能挖掘方法和装置

    公开(公告)号:CN114077742A

    公开(公告)日:2022-02-22

    申请号:CN202111290592.1

    申请日:2021-11-02

    Applicant: 清华大学

    Inventor: 张超 牟思睿 王皓

    Abstract: 本发明提供一种软件漏洞智能挖掘方法和装置,其中,方法包括:并行运行多个策略执行节点;策略生成节点在接收到控制节点的开始指令后,发送初始策略队列至对应的策略执行节点;并行的多个策略执行节点执行初始策略队列生成当前结果反馈,将当前结果反馈发送给策略生成节点;策略生成节点根据当前结果反馈对强化学习智能体进行训练,由强化学习智能体生成新的策略并发送给策略执行节点;策略执行节点根据新的策略生成新结果反馈并反馈发送给策略生成节点;将新的结果反馈作为当前结果反馈,重复上述步骤。本发明通过为目标被测软件动态选择更优的模糊测试策略,使得并行模糊测试总体上的效率始终处于较高状态,避免单个固定策略存在的困境。

    二进制代码相似性检测模型的训练/应用方法及设备

    公开(公告)号:CN118133036A

    公开(公告)日:2024-06-04

    申请号:CN202410155396.0

    申请日:2024-02-02

    Applicant: 清华大学

    Inventor: 张超 王皓

    Abstract: 本申请提供一种二进制代码相似性检测模型的训练/应用方法及设备。该训练方法包括:根据开源的二进制代码数据集,建立训练样本集,训练样本集中包括多个基于中间语言的训练样本;根据训练样本集对基于Transformer模型架构的基础模型进行预训练,得到中间语言预训练模型;根据中间语言预训练模型以及训练样本集,训练得到比较模型;根据中间语言预训练模型以及训练样本集,训练得到嵌入模型,嵌入模型包括查询编码器以及参考编码器;根据嵌入模型和比较模型,构建得到能够对二进制代码的相似性进行检测的相似性检测模型。本申请训练得到的相似性检测模型,可以同时提高二进制代码相似性检测的准确性和效率。

    二进制代码相似度检测方法、模型训练方法及装置

    公开(公告)号:CN115758164A

    公开(公告)日:2023-03-07

    申请号:CN202211249732.5

    申请日:2022-10-12

    Applicant: 清华大学

    Inventor: 张超 王皓

    Abstract: 本发明涉及软件安全技术领域,提供一种二进制代码相似度检测方法、模型训练方法及装置,其中方法包括:将待检测的每个二进制代码分别输入语言模型,获得每个二进制代码的特征向量,检测各二进制代码之间的相似度;语言模型是通过如下方式训练得到的:通过分词获得二进制代码样本中的目标词;基于所有目标词对初始模型进行预训练,当目标词为第一跳转指令的操作数时,词嵌入包含第一跳转指令的操作数所表征的第一跳转指令的目标指令的地址,初始模型的输出目标对应各指令和第一跳转指令的操作数;基于携带有相似度标签的二进制代码样本形成的数据集,对初始模型进行微调得到语言模型,解决二进制代码相似度检测的准确性较低的问题,提升了准确性。

    数据挖掘中一种基于混合互信息的特征选择方法

    公开(公告)号:CN100354864C

    公开(公告)日:2007-12-12

    申请号:CN200510092983.7

    申请日:2005-08-26

    Applicant: 清华大学

    Abstract: 本发明涉及一种数据挖掘中基于混合互信息的特征选择方法,属于数据处理技术领域,本方法包括:数据表中指定D个属性组成候选属性集合F,设置特征属性集合S为空集;对于F中的任意一个属性fi,计算fi与类别标号属性C的互信息I;从中选择最大化互信息I的属性fi,将其从F中去除,并添加到S中;重复步骤a、b直至符合终止条件:a对于F中的任意一个属性fi,计算混合互信息HMI;b选取最大化HMI的属性fi,将其从F中去除,并添加S中;输出选出的特征属性集合S,作为数据挖掘的输入属性。本发明能够更快速、更有效地完成从数据表中选择特征属性的任务,提高数据挖掘的精度和效率。

Patent Agency Ranking