-
公开(公告)号:CN108549535B
公开(公告)日:2021-02-05
申请号:CN201810218332.5
申请日:2018-03-16
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F8/41
Abstract: 本发明提供了一种基于文件依赖关系的高效程序解析方法和系统,该方法包括:S1,对源文件进行分割处理,获取对应的预处理单元集合;S2,对预处理单元集合中的每个预处理单元执行以下处理:若确认预处理单元的类型为预处理指令中的文件包含指令,则提取预处理单元中的头文件;若确认存在通过预先解析头文件获取到的抽象语法树,则将头文件的抽象语法树链接至源文件的抽象语法树;若确认不存在通过预先解析头文件获取到的抽象语法树,则将头文件作为源文件执行步骤S1和S2以对头文件进行解析。本发明判断头文件是否被预先解析,将预先解析得到的抽象语法树链接至源文件的抽象语法树,避免相同头文件的重复解析,减少了程序解析时间。
-
公开(公告)号:CN111930906A
公开(公告)日:2020-11-13
申请号:CN202010745796.9
申请日:2020-07-29
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/242 , G06F40/30
Abstract: 本发明涉及一种基于语义块的知识图谱问答方法及装置,包括获取问句,并通过预设的知识图谱生成上下文字典;将上下文字典输入到预训练的图神经网络模型中,生成语义块序列,根据语义块序列构建语义查询图;根据知识图谱对语义查询图进行解析,输出结果。本发明通过构造问句的上下文词典附加到图神经网络中,有效解决了隐式实体和关系挑战,改进了语义解析的效果。通过构建的语义查询图生成问题的逻辑形式,能够快速的在知识库中检索出答案。结合基于规则的准确度和基于深度学习的覆盖度,通过构建语义块的形式改进问句中的约束条件和多意图组合,使得问题语义块的解析不依赖于问答输出的逻辑形式,具有较强的适应性。
-
公开(公告)号:CN111783418A
公开(公告)日:2020-10-16
申请号:CN202010517766.2
申请日:2020-06-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/205 , G06F40/247 , G06F40/30
Abstract: 本发明涉及一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义-词相似度矩阵;根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过提出的上下文软消歧机制,能够捕捉词的真正词义,提高深度学习模型在下游任务的效果。
-
公开(公告)号:CN111694853A
公开(公告)日:2020-09-22
申请号:CN202010491252.4
申请日:2020-06-02
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备,属于计算机技术领域,本申请的数据增量采集方法包括如下步骤,从数据源中加载数据;基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;基于识别结果对加载数据进行处理。本申请的基于世系的增量数据采集方法具有通用性,不限于数据源的类型,仅对源端进行读操作,对源端性能影响极低。
-
公开(公告)号:CN111553816A
公开(公告)日:2020-08-18
申请号:CN202010310726.0
申请日:2020-04-20
Applicant: 北京北大软件工程股份有限公司
IPC: G06Q50/18 , G06F16/35 , G06F16/335 , G06F17/18
Abstract: 本申请涉及一种行政复议影响因素分析方法及装置,行政复议影响因素分析方法包括获取案件基本信息,根据基本信息对案件进行分类;对分类后案件标记标签;提取案件关键特征和案件对应标签生成数据集;构建影响因素分析模型,通过数据集对所述影响因素分析模型进行训练和测试;根据训练好的影响因素分析模型输出行政复议影响因素。本申请可以为行政主体做出行政行为提供参考建议,减少行政复议,提高行政人员执法效率。
-
公开(公告)号:CN111553160A
公开(公告)日:2020-08-18
申请号:CN202010332120.7
申请日:2020-04-24
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/295 , G06F40/35 , G06F16/332 , G06F16/33 , G06F16/35 , G06Q50/18
Abstract: 本发明公开了一种获取法律领域问句答案的方法和系统,属于语义理解领域,在获取用户的自然语言问句后生成词语的实体,识别实体并将实体分为命名实体和一般实体,根据命名实体和一般实体的关系生成语法依存树,根据语法依存树生成实体间的谓词路径,在根据谓词路径生成查询语句,执行查询语句从数据库中获取用户问句的答案。通过上述方案能够理解用户的语义,帮助用户快速准确的获取问句的答案,同时获取的答案更全面。
-
公开(公告)号:CN111552808A
公开(公告)日:2020-08-18
申请号:CN202010311136.X
申请日:2020-04-20
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于卷积神经网络的行政违法案由预测方法及工具,包括:获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。本发明提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。
-
公开(公告)号:CN109063483A
公开(公告)日:2018-12-21
申请号:CN201810643006.9
申请日:2018-06-21
Applicant: 北京大学 , 北京北大软件工程股份有限公司
Abstract: 本发明提供一种基于路径追踪的漏洞检测方法及系统,其中方法包括:对于当前测试用例,获取当前测试用例在待检测程序中运行时产生的第一运行路径;将第一运行路径与预设漏洞路径进行匹配,若第一运行路径与预设漏洞路径完全匹配,则根据当前测试用例检测待检测程序中的漏洞。该方法及系统以预设漏洞路径为标准,当且仅当某一个当前测试用例在待检测程序中运行时产生的第一运行路径与预设漏洞路径完全匹配时,才确定该当前测试用例为能够触发待检测程序中漏洞的测试用例,最终确定的测试用例能够有效检测出待检测程序中的漏洞,克服了现有的模糊测试工具在进行程序漏洞检测时难以确保有效检测出漏洞的问题,一定程度上提高了漏洞检测的效率。
-
公开(公告)号:CN108549535A
公开(公告)日:2018-09-18
申请号:CN201810218332.5
申请日:2018-03-16
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F8/41
Abstract: 本发明提供了一种基于文件依赖关系的高效程序解析方法和系统,该方法包括:S1,对源文件进行分割处理,获取对应的预处理单元集合;S2,对预处理单元集合中的每个预处理单元执行以下处理:若确认预处理单元的类型为预处理指令中的文件包含指令,则提取预处理单元中的头文件;若确认存在通过预先解析头文件获取到的抽象语法树,则将头文件的抽象语法树链接至源文件的抽象语法树;若确认不存在通过预先解析头文件获取到的抽象语法树,则将头文件作为源文件执行步骤S1和S2以对头文件进行解析。本发明判断头文件是否被预先解析,将预先解析得到的抽象语法树链接至源文件的抽象语法树,避免相同头文件的重复解析,减少了程序解析时间。
-
公开(公告)号:CN119938135A
公开(公告)日:2025-05-06
申请号:CN202510442636.X
申请日:2025-04-10
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本申请公开了一种代码克隆检测方法、装置、设备、介质及产品,涉及深度学习技术领域,该方法包括获取待检测代码库;其中,待检测代码库中包含多个待检测代码片段;确定每个待检测代码片段的哈希值;基于每个待检测代码片段的哈希值,确定高相似度代码片段对集合;其中,高相似度代码片段对集合中包含至少一组高相似度代码片段对;将高相似度代码片段对集合输入至预先训练的基于大语言模型的代码克隆检测模型,得到代码克隆检测模型输出的代码克隆检测结果,本申请可以充分利用大语言模型的能力,避免模型对代码语法表面特征的过度依赖,进而基于对代码片段的语义分析实现对代码功能相似性的准确判断,从而可以提升代码克隆检测的准确性。
-
-
-
-
-
-
-
-
-