-
公开(公告)号:CN111831783B
公开(公告)日:2023-12-08
申请号:CN202010644404.X
申请日:2020-07-07
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/36 , G06F16/35 , G06F40/30 , G06N5/025 , G06N5/04 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本造成的计算成本问题,以及目标实体与非目标本发明提供了一种篇章级关系抽取方法,涉 实体之间的逻辑推理问题。及自然语言处理技术领域,主要解决了针对篇章级文档,计算资源耗费问题和目标实体与非目标实体之间的逻辑推理的技术问题。该发明包括:输入待处理文档,所述文档为篇章级文档;基于双向注意力约束对所述文档进行处理,得到实体与句子的抽象语义表示,所述抽象语义表示具有全局信息和逻辑推理信息;基于所述抽象语义表示判断所述文档中的目标实体对的关系类型。开发者可以使用本发明所述的方法高效准确地进(56)对比文件郭凤羽 等.基于语境交互感知和模式筛选的隐式篇章关系识别.计算机学报.2020,(第05期),901-915.李京谕 等.基于联合注意力机制的篇章级机器翻译.中文信息学报.2019,(第12期),45-53.刘鉴 等.基于双向LSTM和自注意力机制的中文关系抽取研究.山西大学学报(自然科学版).2020,(第01期),8-13.马语丹 等.结合实体共现信息与句子语义特征的关系抽取方法.中国科学:信息科学.2018,(第11期),1533-1545.
-
公开(公告)号:CN111475623B
公开(公告)日:2023-08-22
申请号:CN202010273401.X
申请日:2020-04-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/36
Abstract: 本申请涉及一种基于知识图谱的案件信息语义检索方法及装置,基于知识图谱的案件信息语义检索方法包括根据法律文书构建法治知识图谱;对用户输入的问题进行简单识别和意图识别;定义sparql语言查询模板,根据意图识别结果匹配相应sparql语言查询模板在法治知识图谱中进行第一检索,为第一检索结果赋予第一置信度;搭建全文搜索引擎,将简单识别结果在全文搜索引擎中进行第二检索,为第二检索结果赋予第二置信度;根据第一置信度和所述第二置信度输出最终检索结果。本申请可以充分挖掘实体之间的联系,完成复杂的多跳语义检索,即使法治知识图谱的语义检索出现不能满足要求的输出时也可以基于全文搜索引擎返回检索结果,进一步提高检索效率和准确性。
-
公开(公告)号:CN113641586A
公开(公告)日:2021-11-12
申请号:CN202110958006.X
申请日:2021-08-20
Applicant: 北京北大软件工程股份有限公司
Abstract: 发明实施例涉及软件测试领域,公开了一种软件源代码缺陷检测方法、系统、电子设备及计算机可读存储介质,其中方法包括步骤:构建源代码缺陷数据集,基于开源项目缺陷信息构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目进行自动对齐与抽取以及对所述开源项目源代码缺陷进行上下文增广;构建基于代码切片的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法自动构建来源于真实项目的缺陷数据集并借助模型进行自动判断,而不必花费大量的时间与精力人工遍历代码。
-
公开(公告)号:CN112579477A
公开(公告)日:2021-03-30
申请号:CN202110213108.9
申请日:2021-02-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明实施例涉及软件测试领域,公开了一种缺陷检测方法,包括:S101,构建源代码缺陷数据集,基于开源项目缺陷信息和源代码缺陷报告构建用于训练的大规模数据集,包括对开源项目存在的缺陷条目的抽取以及对所述开源项目源代码缺陷使用静态分析工具进行检测;S102,构建基于缺陷报告的深度学习源代码缺陷检测模型,包括使用多模态的语义表示对代码片段进行表示与分类;S103,对基于人工智能的源代码缺陷检测结果集成显示;开发者可以使用本发明所述的方法对传统源代码分析工具的检测结果进行自动判断,而不必花费大量的时间与经历人工遍历代码。
-
公开(公告)号:CN111783418A
公开(公告)日:2020-10-16
申请号:CN202010517766.2
申请日:2020-06-09
Applicant: 北京北大软件工程股份有限公司
IPC: G06F40/205 , G06F40/247 , G06F40/30
Abstract: 本发明涉及一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义-词相似度矩阵;根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过提出的上下文软消歧机制,能够捕捉词的真正词义,提高深度学习模型在下游任务的效果。
-
公开(公告)号:CN111694853A
公开(公告)日:2020-09-22
申请号:CN202010491252.4
申请日:2020-06-02
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备,属于计算机技术领域,本申请的数据增量采集方法包括如下步骤,从数据源中加载数据;基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;基于识别结果对加载数据进行处理。本申请的基于世系的增量数据采集方法具有通用性,不限于数据源的类型,仅对源端进行读操作,对源端性能影响极低。
-
公开(公告)号:CN111797234B
公开(公告)日:2024-04-30
申请号:CN202010550434.4
申请日:2020-06-16
Applicant: 北京北大软件工程股份有限公司
IPC: G06F16/35 , G06F40/211 , G06F40/284 , G06F40/30 , G06F18/214
Abstract: 本发明公开了一种自然语言处理分类模型中多标签分布学习的方法和系统,属于自然语言处理领域。在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。
-
公开(公告)号:CN111694853B
公开(公告)日:2023-12-08
申请号:CN202010491252.4
申请日:2020-06-02
Applicant: 北京北大软件工程股份有限公司
Abstract: 本申请涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备,属于计算机技术领域,本申请的数据增量采集方法包括如下步骤,从数据源中加载数据;基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;基于识别结果对加载数据进行处理。本申请的基于世系的增量数据采集方法具有通用性,不限于数据源的类型,仅对源端进行读操作,对源端性能影响极低。
-
公开(公告)号:CN112597063A
公开(公告)日:2021-04-02
申请号:CN202110213091.7
申请日:2021-02-26
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明实施例涉及软件维护领域,公开了一种缺陷代码定位的方法、装置以及存储介质,包括:S101:缺陷报告及对应源文件抽取;S102:计算代码源文件的表示;S103:计算缺陷报告的描述文本的表示,S104:计算缺陷报告和代码文件的相似度,得到缺陷报告可能对应的代码源文件;软件维护人员可以使用本发明所描述的方法辅助定位缺陷报告所描述的缺陷对应的代码源文件,提高效率。
-
公开(公告)号:CN111831783A
公开(公告)日:2020-10-27
申请号:CN202010644404.X
申请日:2020-07-07
Applicant: 北京北大软件工程股份有限公司
Abstract: 本发明提供了一种篇章级关系抽取方法,涉及自然语言处理技术领域,主要解决了针对篇章级文档,计算资源耗费问题和目标实体与非目标实体之间的逻辑推理的技术问题。该发明包括:输入待处理文档,所述文档为篇章级文档;基于双向注意力约束对所述文档进行处理,得到实体与句子的抽象语义表示,所述抽象语义表示具有全局信息和逻辑推理信息;基于所述抽象语义表示判断所述文档中的目标实体对的关系类型。开发者可以使用本发明所述的方法高效准确地进行篇章级的关系抽取,同时解决篇章级关系抽取的两个主要问题,即遍历所有实体对生成备选样本造成的计算成本问题,以及目标实体与非目标实体之间的逻辑推理问题。
-
-
-
-
-
-
-
-
-