-
公开(公告)号:CN114115894B
公开(公告)日:2024-10-25
申请号:CN202111384834.3
申请日:2021-11-22
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06F8/41 , G06F21/56 , G06F21/57 , G06F18/22 , G06F18/214 , G06N3/0455 , G06N3/088 , G06F8/36
Abstract: 本发明提出一种基于语义空间对齐的跨平台二进制代码相似性检测方法,首先构建跨平台二进制代码函数库;将开源库中每个函数通过编译器进行编译,通过不同的优化选项得到反汇编文本代码;然后采用Bert模型进行单平台代码语义嵌入模型的训练;使训练后的Bert模型能够识别平台代码语义;在经过基于Contrastive Learning的语义对齐模型的训练;最后构建基于局部敏感哈希技术的快速查找数据库;将高维向量转为低维向量后,使用匹配方法获得相似的向量结果;通过对匹配结果进行分析,对实验模型进行评估;本发明解决了不同平台,如x86、ARM等平台下相同源代码的相似性匹配问题,实现了不同平台下相同语义的识别。
-
公开(公告)号:CN114138273A
公开(公告)日:2022-03-04
申请号:CN202111338422.6
申请日:2021-11-12
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明提出基于语义特征的二进制函数边界检测方法、系统和电子设备,所述方法通过IDApro反汇编带有符号表的二进制程序构建数据集,利用BERT模型训练汇编代码从而判断是否为二进制函数的边界。本发明在反汇编的过程中能够增强函数的识别能力,可以使得漏洞检测、恶意软件分析,软件工程逆向等领域拥有更好的效果。
-
公开(公告)号:CN114115894A
公开(公告)日:2022-03-01
申请号:CN202111384834.3
申请日:2021-11-22
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明提出一种基于语义空间对齐的跨平台二进制代码相似性检测方法,首先构建跨平台二进制代码函数库;将开源库中每个函数通过编译器进行编译,通过不同的优化选项得到反汇编文本代码;然后采用Bert模型进行单平台代码语义嵌入模型的训练;使训练后的Bert模型能够识别平台代码语义;在经过基于Contrastive Learning的语义对齐模型的训练;最后构建基于局部敏感哈希技术的快速查找数据库;将高维向量转为低维向量后,使用匹配方法获得相似的向量结果;通过对匹配结果进行分析,对实验模型进行评估;本发明解决了不同平台,如x86、ARM等平台下相同源代码的相似性匹配问题,实现了不同平台下相同语义的识别。
-
公开(公告)号:CN114138273B
公开(公告)日:2024-10-15
申请号:CN202111338422.6
申请日:2021-11-12
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06F8/41 , G06F8/52 , G06F8/53 , G06F40/284 , G06F40/30 , G06N3/0455
Abstract: 本发明提出基于语义特征的二进制函数边界检测方法、系统和电子设备,所述方法通过IDApro反汇编带有符号表的二进制程序构建数据集,利用BERT模型训练汇编代码从而判断是否为二进制函数的边界。本发明在反汇编的过程中能够增强函数的识别能力,可以使得漏洞检测、恶意软件分析,软件工程逆向等领域拥有更好的效果。
-
-
-