基于负载均衡的知识图谱分布式海量数据导入方法

    公开(公告)号:CN114297395A

    公开(公告)日:2022-04-08

    申请号:CN202110677637.4

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。

    一种面向自然语言的城市领域知识模型查询方法和装置

    公开(公告)号:CN114297350B

    公开(公告)日:2024-08-06

    申请号:CN202110630148.3

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向自然语言的城市领域知识模型查询方法和装置,方法包括:S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合;S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。本发明利用隐马模型查询和迭代式查询推测用户问句的领域知识模型查询子图,并查询答案反馈给用户,提高了检索的准确性和检索的效率。

    一种增量交互式概念模型与数据模式智能映射方法及系统

    公开(公告)号:CN114297314B

    公开(公告)日:2024-08-06

    申请号:CN202110629961.9

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。

    基于负载均衡的知识图谱分布式海量数据导入方法

    公开(公告)号:CN114297395B

    公开(公告)日:2024-07-30

    申请号:CN202110677637.4

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。

    一种面向大规模海量数据的知识图谱构建方法和系统

    公开(公告)号:CN114297173B

    公开(公告)日:2024-07-30

    申请号:CN202110677218.0

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。

    一种面向自然语言的城市领域知识模型查询方法和装置

    公开(公告)号:CN114297350A

    公开(公告)日:2022-04-08

    申请号:CN202110630148.3

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向自然语言的城市领域知识模型查询方法和装置,方法包括:S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合;S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。本发明利用隐马模型查询和迭代式查询推测用户问句的领域知识模型查询子图,并查询答案反馈给用户,提高了检索的准确性和检索的效率。

    一种增量交互式概念模型与数据模式智能映射方法及系统

    公开(公告)号:CN114297314A

    公开(公告)日:2022-04-08

    申请号:CN202110629961.9

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。

    一种面向大规模海量数据的知识图谱构建方法和系统

    公开(公告)号:CN114297173A

    公开(公告)日:2022-04-08

    申请号:CN202110677218.0

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。

    一种异构知识图谱融合方法及系统

    公开(公告)号:CN114090783A

    公开(公告)日:2022-02-25

    申请号:CN202111202752.2

    申请日:2021-10-15

    Applicant: 北京大学

    Abstract: 本发明涉及一种异构知识图谱融合方法及系统,针对现有技术存在着单一结构信息难以区分相同概念下的不同实体以及有限的训练数据限制了基于知识图谱嵌入方法的实体嵌入表示学习准确性等问题,本发明提供一种融合结构信息与属性信息的异构知识图谱融合方法,本发明的效果在于,充分利用图谱中的两种信息:实体结构和实体属性,通过知识表示学习模型得到基于结构的实体表示向量,通过基于共享注意力机制的孪生神经网络模型来学习基于实体属性的实体表示。每次迭代两种信息找到的最佳匹配都打上标记,作为新标记数据补充到训练集中,使得两种信息的模型相互辅助,迭代增强,最终得到准确度较高的实体对齐结果。

Patent Agency Ranking