一种数据处理任务协同控制调度方法及系统

    公开(公告)号:CN115509721A

    公开(公告)日:2022-12-23

    申请号:CN202211330158.6

    申请日:2022-10-27

    Abstract: 本发明涉及一种数据处理任务协同控制调度方法及系统,属于数据处理技术领域;解决现有技术中的数据处理任务调度方法无法实现流数据处理任务与批数据处理任务的混合编排,无法满足用户选择流数据或批数据处理任务类型时无感操作的要求;本发明的方法包括以下步骤:获取当前节点的数据处理任务;根据数据处理任务的任务类型及数据处理进度设置相应的数据状态;并根据数据处理任务的执行状态设置相应的任务状态;获取当前节点的一个或多个下游任务,基于下游任务的任务类型,适配下游任务所需的数据结构;基于当前节点的任务状态、数据状态以及当前节点下游任务的任务类型,判断是否开始运行下游任务,以进行数据处理任务的协同控制调度。

    一种分布式搜索计算引擎
    6.
    发明公开

    公开(公告)号:CN117828165A

    公开(公告)日:2024-04-05

    申请号:CN202311842554.1

    申请日:2023-12-28

    Abstract: 本发明涉及一种分布式搜索计算引擎,包括:包括索引存储管理模块和搜索计算模块,其中:索引存储管理模块用于基于文档数据创建索引,将索引分为多个索引分片分散存储在多个物理分片上,物理分片上还存储有该索引分片对应的文档数据;物理分片的数量基于搜索集群各物理节点的性能和索引的数据量计算得到;搜索计算模块用于基于客户端输入的搜索关键词,通过查询操作在各个索引分片中进行关键词匹配及匹配度计算,得到多个匹配文档的文档ID;并通过取值操作,基于文档ID和路由公式,从对应的物理分片中获取得到匹配文档。本发明解决了现有技术中的搜索计算引擎没有考虑集群节点的性能和索引数据量,导致索引性能和集群性能受限的问题。

    一种基于流数据和批数据协同调度处理的数据湖系统

    公开(公告)号:CN115599524A

    公开(公告)日:2023-01-13

    申请号:CN202211329376.8

    申请日:2022-10-27

    Abstract: 本发明涉及一种基于流数据和批数据协同调度处理的数据湖系统,属于数据处理技术领域;解决现有技术在构建数据湖或对数据湖中的数据进行处理时无法实现流数据与批数据处理任务的混合编排,效率低的问题;本发明的数据湖系统包括:集中式存储模块、计算引擎模块和数据管理模块;其中,集中式存储模块用于分类存储各个业务数据源的数据;数据管理模块用于进行数据处理任务编排,并基于预设的数据处理任务协同调度方法,对每个节点的数据处理任务进行调度处理;计算引擎模块用于基于数据处理任务需求,通过不同的计算引擎对集中式存储模块中的数据进行处理,并将处理后的数据基于数据处理任务的需求进行推送或存入集中式存储模块中。

Patent Agency Ranking