-
公开(公告)号:CN111694853B
公开(公告)日:2023-12-08
申请号:CN202010491252.4
申请日:2020-06-02
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备,属于计算机技术领域,本申请的数据增量采集方法包括如下步骤,从数据源中加载数据;基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;基于识别结果对加载数据进行处理。本申请的基于世系的增量数据采集方法具有通用性,不限于数据源的类型,仅对源端进行读操作,对源端性能影响极低。
-
公开(公告)号:CN115080985B
公开(公告)日:2022-11-11
申请号:CN202210887831.X
申请日:2022-07-27
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明涉及一种基于分块的大规模代码静态分析方法和系统。其中方法包括:将大规模工程程序按照工程粒度需求进行分块;针对各块,构建值依赖模型,将块对应的值依赖子图存储到数据库中作持久化保存;分析各块的值依赖子图中的程序漏洞,构建块漏洞表;遍历各块漏洞表,将漏洞表内的漏洞分类为可信漏洞和不可信漏洞;分析不可信漏洞,根据当前值依赖子图中的漏洞与数据库中其他值依赖子图之间的关联性对子图进行拓展,获得根据漏洞完整化的拓展子图;分析所有拓展子图,验证已发现漏洞并检测是否包含新漏洞,将获取的结果与可信漏洞合并后输出。本发明适用于上亿行代码的静态代码分析,可以实现准确有效的分析。
-
公开(公告)号:CN113806548A
公开(公告)日:2021-12-17
申请号:CN202111372528.8
申请日:2021-11-19
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/205 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习模型的信访要素抽取方法、抽取系统、电子设备及计算机可读存储介质,包括:提取信访件的文本内容中目标文本数据;对目标文本数据进行预处理,生成针对多种深度学习模型的对应的数据;将预处理后的多种文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取;将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类,分别得到要素抽取的结果以及文本分类的结果;将得到的要素抽取的结果以及文本分类的结果推送到终端设备。该方法采用多种模型,能适应不同类型信访件,具有普遍性,并且无需人工进行繁琐要素抽取工作,提高信访人员工作效率。
-
公开(公告)号:CN112579155B
公开(公告)日:2021-05-18
申请号:CN202110198641.2
申请日:2021-02-23
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本发明实施例涉及软件检测领域,公开了一种代码相似性检测方法,主要分为三个阶段,预处理阶段对海量源代码文件进行预处理和特征提取工作,输出相似哈希指纹值;指纹索引阶段则根据上一阶段的结果,采用分段索引策略将指纹切分并重组后存入相似哈希指纹库,建立分段索引便于快速匹配;相似匹配阶段则在对待测工程文件进行处理后生成相似哈希值,根据所述待测工程文件的相似哈希值从所述相似哈希指纹库中分段检索出溯源检测的结果;本发明能够从不同语言常见行的消除这一角度出发来降低行覆盖问题对结果的影响。
-
公开(公告)号:CN112597063A
公开(公告)日:2021-04-02
申请号:CN202110213091.7
申请日:2021-02-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明实施例涉及软件维护领域,公开了一种缺陷代码定位的方法、装置以及存储介质,包括:S101:缺陷报告及对应源文件抽取;S102:计算代码源文件的表示;S103:计算缺陷报告的描述文本的表示,S104:计算缺陷报告和代码文件的相似度,得到缺陷报告可能对应的代码源文件;软件维护人员可以使用本发明所描述的方法辅助定位缺陷报告所描述的缺陷对应的代码源文件,提高效率。
-
公开(公告)号:CN108984843B
公开(公告)日:2021-02-09
申请号:CN201810634710.8
申请日:2018-06-20
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F30/00
Abstract: 本发明提供一种基于守卫计算的区间信息分析方法,包括:S1,对于值依赖图中任一结点,根据该结点与该结点的任一前驱结点间的守卫条件获取守卫条件对应的条件判断结点;S2,根据条件判断结点的前驱结点的区间信息,计算条件判断结点的区间信息,进一步确认条件判断结点的属性;属性为假、真和可满足中的一种;S3,根据条件判断结点的属性,确认条件判断结点对应的守卫条件的区间信息;S4,根据该结点的各前驱结点的区间信息和该结点与该结点的各前驱结点间的守卫条件的区间信息,获取该结点的区间信息。本发明提供的方法,补偿了值依赖图缺少控制流信息的不足,提高了分析精度。
-
公开(公告)号:CN109446066B
公开(公告)日:2020-11-03
申请号:CN201811101415.2
申请日:2018-09-20
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F11/36
Abstract: 本发明实施例提供一种C/C++程序中不可达代码的静态检测方法及系统,其中,所述方法包括:构建待检测C/C++程序的控制依赖图和值依赖图;在所述值依赖图上进行常量分析,并根据常量分析的结果更新所述控制依赖图;对更新后的所述控制依赖图中所有守卫结点的约束表达式的可满足性进行求解;若存在不可满足的约束表达式,则从所述控制依赖图中获取与所述不可满足的约束表达式相对应的守卫结点的所有直接和间接后继结点所对应的程序代码。本发明可以检测千万行级的代码,检测速度可达到每小时百万行以上,并且检测精度超过利用符号执行技术的检测精度,具有较低的误报率和漏报率。
-
公开(公告)号:CN109002712B
公开(公告)日:2020-11-03
申请号:CN201810650652.8
申请日:2018-06-22
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F21/56
Abstract: 本发明提供一种基于值依赖图的污染数据分析方法、系统与电子设备,所述方法包括:S1,将目标计算机程序转换为守卫值依赖图,并通过自定义外部输入函数摘要和外部输入函数摘要用户定义接口,在所述守卫值依赖图上确定多个污染传播起始点;S2,基于污染传播规则、用户自定义漏洞特征的节点特征以及所述污染传播起始点,构成污染传播图;S3,基于所述污染传播图,通过对各所述污染传播起始点进行向下的广搜计算,获取对应的污染传播路径和每一条所述污染传播路径的污染类型。本发明能够清晰且便利的表达污染数据传播范围、传播关系和每一条路径的污染传播类型,保证污染数据传播范围的全面性。
-
公开(公告)号:CN111831783A
公开(公告)日:2020-10-27
申请号:CN202010644404.X
申请日:2020-07-07
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明提供了一种篇章级关系抽取方法,涉及自然语言处理技术领域,主要解决了针对篇章级文档,计算资源耗费问题和目标实体与非目标实体之间的逻辑推理的技术问题。该发明包括:输入待处理文档,所述文档为篇章级文档;基于双向注意力约束对所述文档进行处理,得到实体与句子的抽象语义表示,所述抽象语义表示具有全局信息和逻辑推理信息;基于所述抽象语义表示判断所述文档中的目标实体对的关系类型。开发者可以使用本发明所述的方法高效准确地进行篇章级的关系抽取,同时解决篇章级关系抽取的两个主要问题,即遍历所有实体对生成备选样本造成的计算成本问题,以及目标实体与非目标实体之间的逻辑推理问题。
-
公开(公告)号:CN111797241A
公开(公告)日:2020-10-20
申请号:CN202010552821.1
申请日:2020-06-17
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明涉及一种基于强化学习的事件论元抽取方法及装置,包括构建事件检测模型,构建论元检测模型,构建实体选择模型,将实体选择模型选择的待检测实体输入到论元检测模型进行检测,采集预测结果的损失,根据预测结果的损失更新论元检测模型的参数;根据待检测实体更新实体选择模型;通过更新后的论元检测模型和更新后的实体选择模型对句子中的实体进行检测,并将检测结果引入更新后的论元检测模型和更新后的实体选择模型进行更新,循环直至遍历所有实体。本发明能够在检测当前论元的时候,引入已知论元的信息,通过引入已知论元信息和强化学习技术,能够有效利用论元间交互关系,提高论元检测效果。
-
-
-
-
-
-
-
-
-