-
公开(公告)号:CN119169111A
公开(公告)日:2024-12-20
申请号:CN202411196733.7
申请日:2024-08-29
Applicant: 北京海致星图科技有限公司
IPC: G06T9/00
Abstract: 本申请属于图数据处理技术领域,尤其涉及一种资源受限环境下对大规模图数据进行压缩和处理的方法。一种资源受限环境下对大规模图数据进行压缩和处理的方法包括:获取大型图数据;对大型图数据,进行划分,得到多个初始子图;对多个所述初始子图进行并行压缩算法,得到压缩后的多个目标子图;对压缩后的多个所述目标子图进行恢复。上述方法通过内存感知的自适应图切片、并行规则基础的子图压缩以及图表达恢复模块,本发明不仅能够有效减少图数据的存储空间需求,而且优化了图数据的处理效率,特别是在资源受限的环境下。本发明的提出,不仅有助于推动大规模图数据处理技术的发展,也为在资源受限环境下的图数据应用提供了新的解决方案。
-
公开(公告)号:CN118861367A
公开(公告)日:2024-10-29
申请号:CN202410903729.3
申请日:2024-07-05
Applicant: 清华大学 , 北京海致星图科技有限公司
IPC: G06F16/901 , G06F16/903
Abstract: 本公开涉及数据存储技术领域,包括一种基于LSM树的图数据库存储及统计信息采集方法、和装置。通过响应于写入目标数据的写请求,获取目标数据在图数据库中表示的数据类型;按照与信息统计需求相匹配的预设编码规则和数据类型,生成目标数据的键信息;信息统计需求用于指示统计具有目标特征的节点和边;预设编码规则包括:对于具有连接关系的每组目标节点和目标边,目标节点的第一键信息和目标边的第二键信息包括相同的键部分,键部分用于指示目标特征;生成包括键信息的第一键值对;基于LSM树按照第一键值对将目标数据存储至内存表;可以通过扫描键部分即可一次性统计得到具有相同目标特征的节点和边,提高信息统计效率。
-
公开(公告)号:CN117786007A
公开(公告)日:2024-03-29
申请号:CN202311819503.7
申请日:2023-12-27
Applicant: 北京海致星图科技有限公司
Abstract: 本发明提供了基于链式复制协议的多可用区实现方法与装置,方法包括如下步骤:将存储集群下的节点打上可用区的标签,标签用于区分不同可用区下的机器;机器启动时,向元数据管理的节点注册自身的信息;用户依据自身需求,进行副本配置,指定各可用区的副本数量信息;元数据管理服务按照不同可用区将机器划分为多个子链,并将多个可用区的子链依次连接起来,形成最终的链式结构;将配置下发至所述存储集群。本发明提供的基于链式复制协议的多可用区实现方法、装置、设备和计算机可读存储介质,将链式复制协议和多可用区功能结合起来,实现了基于链式复制协议的多可用区功能,避免数据频繁的在多个可用区之间流动导致的高延迟、低吞吐等性能问题。
-
公开(公告)号:CN116700918A
公开(公告)日:2023-09-05
申请号:CN202310221652.7
申请日:2023-03-09
Applicant: 北京海致星图科技有限公司
IPC: G06F9/48
Abstract: 本发明提供了一种分布式易扩展的工作流任务调度系统设计方法,包括架构设计,包括如下步骤:设置manager/worker为主从节点;基于redis作为队列,将待执行的作业放置到redis中,由各个worker抢占;manager节点为主节点,支持多活并对外开放服务,由外部调用服务创建工作流和执行工作流,并负责发送任务到redis队列;worker节点为从节点,支持多节点并且向manager发送心跳;manager和worker通过nacos注册中心进行服务发现和通信,并可设置多活;调度元数据存储在mysql数据库中。本发明提供的分布式易扩展的工作流任务调度系统设计方法、设备和计算机可读存储介质,通过主从节点,事件驱动的设计架构,解决调度框架常见的高可靠,工作流依赖,任务重试等问题。
-
公开(公告)号:CN116610375A
公开(公告)日:2023-08-18
申请号:CN202310219911.2
申请日:2023-03-09
Applicant: 北京海致星图科技有限公司
Abstract: 本发明提供了一种分布式大数据组件统一服务引擎设计方法、设备和计算机可读存储介质,方法包括如下步骤:根据大数据计算框架spark/flink的特点,在系统中以jonName‑plugins‑module的组织方式来引用相关业务开发的源码包和配置文件以及启动脚本,不依赖其他jar包,提供大数据计算引擎中核心的计算引擎层;对具有相同特点的计算框架按照上述步骤进行添加,并通过前缀进行区分。本发明提供的分布式大数据组件统一服务引擎设计方法、设备和计算机可读存储介质,通过大数据计算框架组织和对外开放服务接口的方式整合大数据生态组件和计算,降低了开发难度、使用开销,提升了工作效率。
-
公开(公告)号:CN116522934A
公开(公告)日:2023-08-01
申请号:CN202310261033.0
申请日:2023-03-14
Applicant: 北京海致星图科技有限公司
IPC: G06F40/295 , G06F40/253
Abstract: 本发明涉及信息处理技术领域。一种用于实体和关系抽取的规则系统包括规则管理模块、规则执行模块和规则存储模块,规则管理模块,包括规则集管理单元、规则增删改查单元、规则解析单元、规则校验单元和规则测试单元,规则集管理单元,包括多个规则集,每个规则集中包括至少一条规则;规则增删改查单元,用于对调整规则;规则解析单元,用于对规则进行解析,以便基于解析的内容执行规则;规则校验单元,用于对规则增删改查单元进行校验;规则测试单元,用于对规则测试,并返回测试结果;规则执行模块,用于根据输入的非结构化数据执行规则管理模块,以便得到非结构化数据中的实体和关系;存储模块,用于存储规则管理模块。
-
公开(公告)号:CN116010916A
公开(公告)日:2023-04-25
申请号:CN202310067724.7
申请日:2023-01-13
Applicant: 北京海致星图科技有限公司
Inventor: 杨娟
IPC: G06F21/31
Abstract: 本发明实施例公开了一种用户身份信息识别方法、装置、电子设备及存储介质。其中,方法包括:获取目标用户的目标身份信息,并根据目标身份信息确定至少一条参考身份信息;根据目标身份信息与各参考身份信息确定至少一条身份信息数据对;根据各身份信息数据对,确定目标用户的身份信息。本发明实施例的方案,可以对用户的身份信息进行快速确认,为快速且准确地响应客户请求提供依据。
-
公开(公告)号:CN113886606B
公开(公告)日:2022-12-13
申请号:CN202111487568.7
申请日:2021-12-08
Applicant: 北京海致星图科技有限公司
IPC: G06F16/36 , G06F40/279 , G06F40/247 , G06F16/35
Abstract: 本申请实施例公开了一种基于知识图谱的数据标注方法、装置、介质及设备。其中,该方法包括:响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系;获取标注目标文档,并根据图本体模型确定标注项数据;根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。采用本申请技术方案,可将知识图谱与标注数据相结合,从而实现标注数据的可视化,能够更加清晰、直观地反映数据,同时提高了数据标注的效率。
-
公开(公告)号:CN113609318B
公开(公告)日:2022-03-22
申请号:CN202111175074.5
申请日:2021-10-09
Applicant: 北京海致星图科技有限公司 , 清华大学
Abstract: 本发明公开了一种图数据处理方法、装置、电子设备以及存储介质,属于计算机技术领域。该方法包括:根据待存储图数据中端点的标识信息和所述端点关联的关系边的类型,构建至少一个类型的关系边的基础键值对键域的外键标识;根据所述端点的标识信息和所述关系边的标识信息,确定所述关系边的数据键值对键域的内键标识;根据所述关系边的属性信息,确定所述关系边的数据键值对值域的内键值;将同类型的关系边的数据键值对写入该类型所对应的关系边的基础键值对值域的寻址区域中;将所述基础键值对写入图数据库的kv存储引擎中。通过上述技术方案,提高了图数据导入性能和访问性能。
-
公开(公告)号:CN118210444A
公开(公告)日:2024-06-18
申请号:CN202410280141.7
申请日:2024-03-12
Applicant: 北京海致星图科技有限公司
IPC: G06F3/06 , G06F18/241 , G06F18/22
Abstract: 本发明涉及计算机技术领域。一种图计算系统节点编号双向映射的内存压缩方法包括建立反向映射:获取所有节点,以及所有节点对应的标签,并对多个标签进行顺序编号,以及每个标签下的节点顺序编号,得到编号标签,以及节点编号;对于整数类型节点的反向映射:对整数类型的主键向量集合进行压缩,得到压缩整数向量集合;对于字符串类型节点的反向映射:根据节点编号,将字符类型的主键存储在字符类型的主键向量中,并对主键向量进行压缩,得到压缩主键向量;对整数类型的地址向量进行压缩,得到压缩地址向量;压缩地址向量与压缩主键向量相匹配;建立正向映射:获取编号标签对应的节点的正向映射,得到哈希表。降低了空间消耗,减少了内存碎片。
-
-
-
-
-
-
-
-
-