Patent search ap:("国家计算机网络与信息安全管理中心" OR "天津神舟通用数据技术有限公司") AND inv:"朱亚南" Page 1

1.

发明授权
一种基于Spark计算框架的数据获取方法和装置失效

公开(公告)号：CN108536808B

公开(公告)日：2022-04-29

申请号：CN201810296682.3

申请日：2018-04-04

Applicant: 国家计算机网络与信息安全管理中心 , 天津神舟通用数据技术有限公司

Inventor： 吕雁飞 , 刘欣然 , 张鸿 , 蒋旭 , 马秉楠 , 惠榛 , 朱亚南

IPC: G06F16/25 , G06F16/22

Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括：在接收到表对象访问请求之后，获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息；根据计算资源信息和数据分布信息，生成多个Partition；其中，每个Partition对应数据表中的部分数据；通过生成的多个Partition，从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性，通过多个Partition，直接从MPP的存储节点快速获取数据集。进一步地，在计算资源充足的情况下，可以对存储节点的数据表进行进一步的拆分，以达到提高并行度，提升数据导入性能的目的。可以根据MPP集群的数据分布情况，优先从本地存储中获取数据，减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

2.

发明公开
一种基于Spark计算框架的数据获取方法和装置失效

公开(公告)号：CN108536808A

公开(公告)日：2018-09-14

申请号：CN201810296682.3

申请日：2018-04-04

Applicant: 国家计算机网络与信息安全管理中心 , 天津神舟通用数据技术有限公司

Inventor： 吕雁飞 , 刘欣然 , 张鸿 , 蒋旭 , 马秉楠 , 惠榛 , 朱亚南

IPC: G06F17/30

Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括：在接收到表对象访问请求之后，获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息；根据计算资源信息和数据分布信息，生成多个Partition；其中，每个Partition对应数据表中的部分数据；通过生成的多个Partition，从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性，通过多个Partition，直接从MPP的存储节点快速获取数据集。进一步地，在计算资源充足的情况下，可以对存储节点的数据表进行进一步的拆分，以达到提高并行度，提升数据导入性能的目的。可以根据MPP集群的数据分布情况，优先从本地存储中获取数据，减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

Patent Agency Ranking