-
公开(公告)号:CN114860873A
公开(公告)日:2022-08-05
申请号:CN202210424334.6
申请日:2022-04-22
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/33 , G06F16/34 , G06F40/194 , G06F40/242 , G06F40/253 , G06K9/62
Abstract: 本申请一些实施例提供了一种生成文本摘要的方法、装置及存储介质,涉及信息处理技术领域,该方法包括对初始文本进行分块处理,获取处理后的文本数据;将所述文本数据输入到目标摘要生成模型,获取目标摘要,其中,所述目标摘要生成模型包括第一目标文本模型和第二目标文本模型,所述第一目标文本模型是通过训练第一文本模型得到的,所述第二目标文本模型是通过训练第二文本模型得到的,所述第一目标文本模型用于提取所述文本数据包括的目标信息,所述第二目标文本模型用于根据所述目标信息生成所述目标摘要。本申请一些实施例可以对文本进行准确地信息提取,生成质量较高的文本摘要,且解决了文本信息丢失的问题。
-
公开(公告)号:CN114756727A
公开(公告)日:2022-07-15
申请号:CN202210459090.5
申请日:2022-04-27
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/908 , G06F16/909 , G06N3/04 , G06N3/08
Abstract: 本申请实施例提供一种获得数据补全模型、数据补全的方法、装置及介质,该方法包括:通过所述编码器将所述样本数据进行编码,获得样本编码数据,其中,所述样本数据包括缺失数据以及与所述缺失数据相对应的完整数据;将所述样本编码数据输入到所述生成对抗网络中,获得生成数据;通过所述解码器对所述生成数据进行解码获得补全数据,并且计算所述样本数据与所述补全数据之间的损失函数值;基于所述损失函数值调整所述编码器和所述解码器的参数;重复上述过程,直至所述损失函数值满足预设条件,获得目标数据补全模型。通过本申请的一些实施例能够提升数据补全模型的性能,从而能够提升数据补全的准确率。
-
公开(公告)号:CN114550194A
公开(公告)日:2022-05-27
申请号:CN202210441221.7
申请日:2022-04-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请实施例提供一种识别信访件的方法和装置,该方法包括:获取待识别信访件;对待识别信访件进行格式转换,得到待识别信访件的图像;对待识别信访件的图像中的指定内容进行识别,得到识别结果;其中,指定内容包括红头标题、文号、日期、公章和手写签名中的至少一个内容。借助于上述技术方案,本申请实施例能够减轻信访工作人员工作量与压力,提升信访件处理效率。
-
公开(公告)号:CN114528409A
公开(公告)日:2022-05-24
申请号:CN202210401206.X
申请日:2022-04-18
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F16/335 , G06F40/205
Abstract: 本申请提供一种对信访件要素信息的抽取结果评价的方法及装置,该方法包括,获取机器抽取信访件要素信息的第一要素集合和人工抽取信访件要素信息的第二要素集合;将第二要素集合中的每一要素信息和第一要素集合中对应的每一要素信息进行匹配,得到第二要素集合中每一要素信息的评分;基于第二要素集合中每一要素信息的评分,确定人工抽取信访件要素信息的评价结果。通过本申请的方法可以达到准确的对人工抽取信访件的要素信息进行评价的效果。
-
公开(公告)号:CN113641586A
公开(公告)日:2021-11-12
申请号:CN202110958006.X
申请日:2021-08-20
Applicant: 北京北大软件工程股份有限公司
Abstract: 发明实施例涉及软件测试领域,公开了一种软件源代码缺陷检测方法、系统、电子设备及计算机可读存储介质,其中方法包括步骤:构建源代码缺陷数据集,基于开源项目缺陷信息构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目进行自动对齐与抽取以及对所述开源项目源代码缺陷进行上下文增广;构建基于代码切片的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法自动构建来源于真实项目的缺陷数据集并借助模型进行自动判断,而不必花费大量的时间与精力人工遍历代码。
-
公开(公告)号:CN113553435A
公开(公告)日:2021-10-26
申请号:CN202111103712.2
申请日:2021-09-22
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/08
Abstract: 本申请公开了一种智能标签的确定方法、装置、设备及存储介质,通过对待处理文本进行拆分,得到多个短句;根据预置Bert模型分别对所述短句进行预测,得到各个短句的基准句;将各个所述基准句与预置基准语句库进行匹配,确定各个所述短句的智能标签,实现对文本中的短句进行分类标签,以使用户更加方便、快速阅读或分析文本,提高阅读效率。
-
公开(公告)号:CN112579477A
公开(公告)日:2021-03-30
申请号:CN202110213108.9
申请日:2021-02-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明实施例涉及软件测试领域,公开了一种缺陷检测方法,包括:S101,构建源代码缺陷数据集,基于开源项目缺陷信息和源代码缺陷报告构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目的抽取以及对所述开源项目源代码缺陷使用静态分析工具进行检测;S102,构建基于缺陷报告的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;S103,对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法对传统源代码分析工具的检测结果进行自动判断,而不必花费大量的时间与经历人工遍历代码。
-
公开(公告)号:CN112579155A
公开(公告)日:2021-03-30
申请号:CN202110198641.2
申请日:2021-02-23
Applicant: 北京北大软件工程股份有限公司
IPC: G06F8/75
Abstract: 本发明实施例涉及软件检测领域,公开了一种代码相似性检测方法,主要分为三个阶段,预处理阶段对海量源代码文件进行预处理和特征提取工作,输出相似哈希指纹值;指纹索引阶段则根据上一阶段的结果,采用分段索引策略将指纹切分并重组后存入相似哈希指纹库,建立分段索引便于快速匹配;相似匹配阶段则在对待测工程文件进行处理后生成相似哈希值,根据所述待测工程文件的相似哈希值从所述相似哈希指纹库中分段检索出溯源检测的结果;本发明能够从不同语言常见行的消除这一角度出发来降低行覆盖问题对结果的影响。
-
公开(公告)号:CN108549535B
公开(公告)日:2021-02-05
申请号:CN201810218332.5
申请日:2018-03-16
Applicant: 北京大学 , 北京北大软件工程股份有限公司
IPC: G06F8/41
Abstract: 本发明提供了一种基于文件依赖关系的高效程序解析方法和系统,该方法包括:S1,对源文件进行分割处理,获取对应的预处理单元集合;S2,对预处理单元集合中的每个预处理单元执行以下处理:若确认预处理单元的类型为预处理指令中的文件包含指令,则提取预处理单元中的头文件;若确认存在通过预先解析头文件获取到的抽象语法树,则将头文件的抽象语法树链接至源文件的抽象语法树;若确认不存在通过预先解析头文件获取到的抽象语法树,则将头文件作为源文件执行步骤S1和S2以对头文件进行解析。本发明判断头文件是否被预先解析,将预先解析得到的抽象语法树链接至源文件的抽象语法树,避免相同头文件的重复解析,减少了程序解析时间。
-
公开(公告)号:CN111930906A
公开(公告)日:2020-11-13
申请号:CN202010745796.9
申请日:2020-07-29
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F40/242 , G06F40/30
Abstract: 本发明涉及一种基于语义块的知识图谱问答方法及装置,包括获取问句,并通过预设的知识图谱生成上下文字典;将上下文字典输入到预训练的图神经网络模型中,生成语义块序列,根据语义块序列构建语义查询图;根据知识图谱对语义查询图进行解析,输出结果。本发明通过构造问句的上下文词典附加到图神经网络中,有效解决了隐式实体和关系挑战,改进了语义解析的效果。通过构建的语义查询图生成问题的逻辑形式,能够快速的在知识库中检索出答案。结合基于规则的准确度和基于深度学习的覆盖度,通过构建语义块的形式改进问句中的约束条件和多意图组合,使得问题语义块的解析不依赖于问答输出的逻辑形式,具有较强的适应性。
-
-
-
-
-
-
-
-
-