基于负载均衡的知识图谱分布式海量数据导入方法

    公开(公告)号:CN114297395A

    公开(公告)日:2022-04-08

    申请号:CN202110677637.4

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。

    图表联动的知识图谱查询系统和方法

    公开(公告)号:CN114297336A

    公开(公告)日:2022-04-08

    申请号:CN202111119620.3

    申请日:2021-09-24

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于图数据库与文档型数据库的图表联动的知识图谱查询系统和方法,属于知识图谱检索技术领域,所述系统包括领域知识模型交互式多维可视化展现模块和交互式知识推理与探查模块;交互式多维可视化展现模块用于查询实体之间结构关系,包括力导布局视图、层次布局视图和矩阵布局视图,还包括GIS地理视图、层次递进视图、图结构视图、表结构视图、微观尺度视图和宏观尺度视图;交互式知识推理与探查模块用于精确定位数据信息,提供的数据查询方式包括全局过滤、局部过滤和本体导航。本发明提供的系统和方法在面对拥有海量数据的知识图谱时,能更好地展现和查询海量数据,从而能高效精准地找到用户所需的信息。

    一种增量交互式概念模型与数据模式智能映射方法及系统

    公开(公告)号:CN114297314B

    公开(公告)日:2024-08-06

    申请号:CN202110629961.9

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。

    基于负载均衡的知识图谱分布式海量数据导入方法

    公开(公告)号:CN114297395B

    公开(公告)日:2024-07-30

    申请号:CN202110677637.4

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。

    一种面向大规模海量数据的知识图谱构建方法和系统

    公开(公告)号:CN114297173B

    公开(公告)日:2024-07-30

    申请号:CN202110677218.0

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。

    一种增量交互式概念模型与数据模式智能映射方法及系统

    公开(公告)号:CN114297314A

    公开(公告)日:2022-04-08

    申请号:CN202110629961.9

    申请日:2021-06-07

    Applicant: 北京大学

    Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。

    一种面向大规模海量数据的知识图谱构建方法和系统

    公开(公告)号:CN114297173A

    公开(公告)日:2022-04-08

    申请号:CN202110677218.0

    申请日:2021-06-18

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。

Patent Agency Ranking