Patent search ap:("南京大学") AND inv:"施军" Page 1

1.

发明授权
一种基于Spark的大规模分布式DataFrame的查询方法有权

公开(公告)号：CN110046176B

公开(公告)日：2023-03-31

申请号：CN201910347850.1

申请日：2019-04-28

Applicant: 南京大学

Inventor： 顾荣 , 黄宜华 , 施军

IPC: G06F16/2455 , G06F16/27 , G06F16/22

Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：采用了基于分布式计算执行引擎Spark的系统框架，以DataFrame作为编程模型，Python作为编程语言；在该分布式系统中，通过封装Spark原生DataFrame的已有查询接口，消除了与主流单机DataFrame计算库Pandas的API的不兼容性；构建轻量级全局索引，针对不同情况提供多种分布式DataFrame查询的功能；构建局部索引和辅助索引，提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好，无法处理大规模数据，以及现有的大数据处理平台分布式DataFrame查询接口不丰富，易用性差，性能低的问题。

2.

发明公开
一种基于Spark的大规模分布式DataFrame的查询方法有权

公开(公告)号：CN110046176A

公开(公告)日：2019-07-23

申请号：CN201910347850.1

申请日：2019-04-28

Applicant: 南京大学

Inventor： 顾荣 , 黄宜华 , 施军

IPC: G06F16/2455 , G06F16/27 , G06F16/22

Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法，包括以下步骤：采用了基于分布式计算执行引擎Spark的系统框架，以DataFrame作为编程模型，Python作为编程语言；在该分布式系统中，通过封装Spark原生DataFrame的已有查询接口，消除了与主流单机DataFrame计算库Pandas的API的不兼容性；构建轻量级全局索引，针对不同情况提供多种分布式DataFrame查询的功能；构建局部索引和辅助索引，提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好，无法处理大规模数据，以及现有的大数据处理平台分布式DataFrame查询接口不丰富，易用性差，性能低的问题。

Patent Agency Ranking