-
公开(公告)号:CN108196880A
公开(公告)日:2018-06-22
申请号:CN201711307630.3
申请日:2017-12-11
Applicant: 北京大学
IPC: G06F8/74
Abstract: 本发明涉及一种软件项目知识图谱自动构造方法与系统。该方法包括:1)对原始软件资源数据进行解析,得到软件项目的基础知识实体及其关联,并以顶点和边的形式存储在图数据库中;2)在已有基础知识实体及其关联的基础上,采用知识提炼方法在实体之间建立新的关联,和/或在知识图谱中添加新的基础知识实体及其关联,并以顶点和边的形式存储在图数据库中;3)选择部分或全部基础知识实体及其关联,构成软件项目知识图谱。每种软件资源数据的解析方法以及知识提炼方法以插件形式存在,通过选择并运行需要的插件来生成软件项目知识图谱。本发明解决了从多源异构的软件资源中提取和组织领域特定知识的问题,适用范围广,可扩展性强。
-
公开(公告)号:CN107220297A
公开(公告)日:2017-09-29
申请号:CN201710301051.1
申请日:2017-05-02
Applicant: 北京大学
Abstract: 本发明提供面向软件项目的多源异构数据自动收集方法及系统,该系统包括:多任务多线程爬取模块,用于对多个数据爬取任务进行统一的调度,并对不同类型的数据实现不同的爬取方法,以根据不同数据类型的数据入口地址自动调用不同的爬取方法对不同类型的数据爬取任务进行数据爬取;多源异构软件项目数据自动收集模块,用于根据用户输入的软件项目名称及URL自动化探测该软件项目数据的数据类型及其对应的数据入口地址,并根据已知的不同数据类型的数据入口地址创建其对应的数据爬取任务,在所述多任务多线程爬取模块中调用不同的爬取方法对数据进行收集;数据解析存储模块,用于对上述收集的数据进行解析并存储到数据库中。
-
公开(公告)号:CN106933901A
公开(公告)日:2017-07-07
申请号:CN201511032263.1
申请日:2015-12-31
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供的数据集成方法及系统,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。
-
公开(公告)号:CN106649557A
公开(公告)日:2017-05-10
申请号:CN201610984538.X
申请日:2016-11-09
Applicant: 北京大学(天津滨海)新一代信息技术研究院
Abstract: 本发明公开了一种缺陷报告与邮件列表语义关联挖掘方法。本方法为:1)对获取的目标项目的缺陷报告与邮件列表进行解析,得到缺陷报告的堆栈信息、代码片段、正文文本和邮件列表的堆栈信息、代码片段、正文文本;2)文档显式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的显式语义关联,包括引用关联和共同代码元素关联;3)文档隐式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的隐式语义关联,包括相似关联和潜在语义关联。本发明有利于高效地定位相关的缺陷报告与邮件列表,帮助开发人员更好地复用软件资源。
-
公开(公告)号:CN101312463B
公开(公告)日:2011-06-22
申请号:CN200810115314.0
申请日:2008-06-20
Applicant: 北京大学
Abstract: 本发明公开了一种服务冗余方法,该方法包括:选择器生成各个备选WEB服务的可用性信息;根据所述可用性信息和接收到的服务消费请求,选择器选取并提供可用性最高的所述备选WEB服务。所述生成的可用性信息包括状态信息和可用性预测值,所述备选WEB服务的所述可用性预测值按照滑动平均法计算的所述备选WEB服务的可用性生成,所述状态信息按照预定的规则生成。本发明通过包括状态信息和可用性预测值的可用性信息选择WEB服务并将其提供给服务消费者,有效地加快了获得作为判断当前备选WEB服务可用性高低的可用性预测值的收敛速度,同时提高了获得备选WEB服务可用性预测值的准确率,保证了服务消费者调用WEB服务的成功率。
-
公开(公告)号:CN101312463A
公开(公告)日:2008-11-26
申请号:CN200810115314.0
申请日:2008-06-20
Applicant: 北京大学
Abstract: 本发明公开了一种服务冗余方法,该方法包括:选择器生成各个备选WEB服务的可用性信息;根据所述可用性信息和接收到的服务消费请求,选择器选取并提供可用性最高的所述备选WEB服务。所述生成的可用性信息包括状态信息和可用性预测值,所述备选WEB服务的所述可用性预测值按照滑动平均法计算的所述备选WEB服务的可用性生成,所述状态信息按照预定的规则生成。本发明通过包括状态信息和可用性预测值的可用性信息选择WEB服务并将其提供给服务消费者,有效地加快了获得作为判断当前备选WEB服务可用性高低的可用性预测值的收敛速度,同时提高了获得备选WEB服务可用性预测值的准确率,保证了服务消费者调用WEB服务的成功率。
-
公开(公告)号:CN109448808B
公开(公告)日:2022-05-03
申请号:CN201810992868.2
申请日:2018-08-29
Applicant: 北京大学
IPC: G16H20/10 , G16H70/40 , G06F16/335 , G06K9/62
Abstract: 本发明公开一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将来自医疗系统的数据整理成处方数据,其中每条处方数据中包含诊断特征和用药特征;2)将处方数据输入MV‑LDA模型进行训练;其中,MV‑LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和在每个诊断特征的所对应的概率值组成,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)利用训练好的MV‑LDA模型对待识别处方数据进行推断,得到其基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,判断该待识别处方数据是否为异常处方。
-
公开(公告)号:CN114091406A
公开(公告)日:2022-02-25
申请号:CN202111202937.3
申请日:2021-10-15
Applicant: 北京大学
IPC: G06F40/117 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明涉及一种面向知识抽取的智能文本标注方法及系统,针对知识抽取过程存在的深度学习模型缺乏标注数据,且人工数据标注繁琐,需要领域专家大量人工操作,耗时耗力等问题,面向知识抽取的实体识别和关系抽取两个阶段,提出基于主动学习的智能标注方法与系统,本发明的效果在于,当获取完全无标签数据时,领域专家可以自由设定标注模型和标注批次规模等参数,边标注数据,边使实体识别和关系抽取联合模型学习该知识抽取行为,在尽可能少的标注轮次后完成深度学习模型的训练,进而完成整个数据集的知识抽取。
-
公开(公告)号:CN108959358B
公开(公告)日:2019-09-17
申请号:CN201810457363.6
申请日:2018-05-14
Applicant: 北京大学
IPC: G06F16/25 , G06F16/242 , G06F16/26 , G06F9/451
Abstract: 本发明涉及一种基于本体模型的终端用户数据访问方法及系统。该方法包括:1)根据查询元模型和基于所述查询元模型的本体推理规则,对用户要查询的本体模型进行预处理,推理出其中的“向内共享”关系和“向外共享”关系;2)将用户输入转换为本体查询SPARQL语句;3)根据所述本体查询SPARQL语句生成SQL语句,通过对所述本体模型进行SQL查询实现数据的访问和查询。本发明充分利用本体模型的语义元素和推理能力来优化终端用户的查询构造流程,帮助用户脱离数据库的实际存储模式细节,同时对终端用户的分组统计需求提供了完整的支持,填补了现有相关工作的不足,具备更强的系统可用性和表达能力。
-
公开(公告)号:CN109033135A
公开(公告)日:2018-12-18
申请号:CN201810575729.X
申请日:2018-06-06
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向软件项目知识图谱的自然语言查询方法及系统。本方法为:1)抽取软件项目知识图谱的元模型;2)将自然语言查询语句转换成知识图谱元模型上的一系列子图,称为推理子图,并对推理子图进行了度量;3)基于所述推理子图构造Cypher查询语句,并在软件项目知识图谱上执行,返回查询结果。本发明能够自动提取软件项目知识图谱的元模型,准确理解用户的自然语言问题并构造查询,具有通用性强、扩展性强的特点,提高了软件知识图谱的查询效率。
-
-
-
-
-
-
-
-
-