-
公开(公告)号:CN113641586A
公开(公告)日:2021-11-12
申请号:CN202110958006.X
申请日:2021-08-20
Applicant: 北京北大软件工程股份有限公司
Abstract: 发明实施例涉及软件测试领域,公开了一种软件源代码缺陷检测方法、系统、电子设备及计算机可读存储介质,其中方法包括步骤:构建源代码缺陷数据集,基于开源项目缺陷信息构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目进行自动对齐与抽取以及对所述开源项目源代码缺陷进行上下文增广;构建基于代码切片的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法自动构建来源于真实项目的缺陷数据集并借助模型进行自动判断,而不必花费大量的时间与精力人工遍历代码。
-
公开(公告)号:CN112579477A
公开(公告)日:2021-03-30
申请号:CN202110213108.9
申请日:2021-02-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明实施例涉及软件测试领域,公开了一种缺陷检测方法,包括:S101,构建源代码缺陷数据集,基于开源项目缺陷信息和源代码缺陷报告构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目的抽取以及对所述开源项目源代码缺陷使用静态分析工具进行检测;S102,构建基于缺陷报告的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;S103,对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法对传统源代码分析工具的检测结果进行自动判断,而不必花费大量的时间与经历人工遍历代码。
-
公开(公告)号:CN112579155A
公开(公告)日:2021-03-30
申请号:CN202110198641.2
申请日:2021-02-23
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本发明实施例涉及软件检测领域,公开了一种代码相似性检测方法,主要分为三个阶段,预处理阶段对海量源代码文件进行预处理和特征提取工作,输出相似哈希指纹值;指纹索引阶段则根据上一阶段的结果,采用分段索引策略将指纹切分并重组后存入相似哈希指纹库,建立分段索引便于快速匹配;相似匹配阶段则在对待测工程文件进行处理后生成相似哈希值,根据所述待测工程文件的相似哈希值从所述相似哈希指纹库中分段检索出溯源检测的结果;本发明能够从不同语言常见行的消除这一角度出发来降低行覆盖问题对结果的影响。
-
公开(公告)号:CN111930906A
公开(公告)日:2020-11-13
申请号:CN202010745796.9
申请日:2020-07-29
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/242 , G06F40/30
Abstract: 本发明涉及一种基于语义块的知识图谱问答方法及装置,包括获取问句,并通过预设的知识图谱生成上下文字典;将上下文字典输入到预训练的图神经网络模型中,生成语义块序列,根据语义块序列构建语义查询图;根据知识图谱对语义查询图进行解析,输出结果。本发明通过构造问句的上下文词典附加到图神经网络中,有效解决了隐式实体和关系挑战,改进了语义解析的效果。通过构建的语义查询图生成问题的逻辑形式,能够快速的在知识库中检索出答案。结合基于规则的准确度和基于深度学习的覆盖度,通过构建语义块的形式改进问句中的约束条件和多意图组合,使得问题语义块的解析不依赖于问答输出的逻辑形式,具有较强的适应性。
-
公开(公告)号:CN111783418A
公开(公告)日:2020-10-16
申请号:CN202010517766.2
申请日:2020-06-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/205 , G06F40/247 , G06F40/30
Abstract: 本发明涉及一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义-词相似度矩阵;根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过提出的上下文软消歧机制,能够捕捉词的真正词义,提高深度学习模型在下游任务的效果。
-
公开(公告)号:CN111694853A
公开(公告)日:2020-09-22
申请号:CN202010491252.4
申请日:2020-06-02
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备,属于计算机技术领域,本申请的数据增量采集方法包括如下步骤,从数据源中加载数据;基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;基于识别结果对加载数据进行处理。本申请的基于世系的增量数据采集方法具有通用性,不限于数据源的类型,仅对源端进行读操作,对源端性能影响极低。
-
公开(公告)号:CN111552808A
公开(公告)日:2020-08-18
申请号:CN202010311136.X
申请日:2020-04-20
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于卷积神经网络的行政违法案由预测方法及工具,包括:获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。本发明提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。
-
公开(公告)号:CN119938135A
公开(公告)日:2025-05-06
申请号:CN202510442636.X
申请日:2025-04-10
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本申请公开了一种代码克隆检测方法、装置、设备、介质及产品,涉及深度学习技术领域,该方法包括获取待检测代码库;其中,待检测代码库中包含多个待检测代码片段;确定每个待检测代码片段的哈希值;基于每个待检测代码片段的哈希值,确定高相似度代码片段对集合;其中,高相似度代码片段对集合中包含至少一组高相似度代码片段对;将高相似度代码片段对集合输入至预先训练的基于大语言模型的代码克隆检测模型,得到代码克隆检测模型输出的代码克隆检测结果,本申请可以充分利用大语言模型的能力,避免模型对代码语法表面特征的过度依赖,进而基于对代码片段的语义分析实现对代码功能相似性的准确判断,从而可以提升代码克隆检测的准确性。
-
公开(公告)号:CN117556431B
公开(公告)日:2024-06-11
申请号:CN202410047057.0
申请日:2024-01-12
Applicant: 北京北大软件工程股份有限公司
IPC: G06F21/57
Abstract: 本发明涉及静态代码分析技术,具体涉及一种混合软件漏洞分析方法。本发明提供的方法包括:基于混合软件确定统一中间表示IR;基于统一中间表示IR构造数据流表示模型VFG;基于数据流表示模型VFG定位潜在漏洞的植入点和触发点;通过流追踪的方式对漏洞进行分析;混合软件至少包含两种以上的编程语言或者两种以上的代码形式。本发明通过建立统一的中间表示模型,实现对多种编程语言、多种形式代码混合的复杂软件的检测,尤其对于多模块交互的场景,能够弥补传统检测方式的不足,提升漏洞检测的能力,发现软件系统中的深层次问题。
-
公开(公告)号:CN111797234B
公开(公告)日:2024-04-30
申请号:CN202010550434.4
申请日:2020-06-16
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/211 , G06F40/284 , G06F40/30 , G06F18/214
Abstract: 本发明公开了一种自然语言处理分类模型中多标签分布学习的方法和系统,属于自然语言处理领域。在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。
-
-
-
-
-
-
-
-
-