Patent search ap:("国家计算机网络与信息安全管理中心" OR "天津神舟通用数据技术有限公司") AND inv:"吕雁飞" Page 1

1.

发明授权
一种基于Spark计算框架的数据获取方法和装置失效

公开(公告)号：CN108536808B

公开(公告)日：2022-04-29

申请号：CN201810296682.3

申请日：2018-04-04

Applicant: 国家计算机网络与信息安全管理中心 , 天津神舟通用数据技术有限公司

Inventor： 吕雁飞 , 刘欣然 , 张鸿 , 蒋旭 , 马秉楠 , 惠榛 , 朱亚南

IPC: G06F16/25 , G06F16/22

Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括：在接收到表对象访问请求之后，获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息；根据计算资源信息和数据分布信息，生成多个Partition；其中，每个Partition对应数据表中的部分数据；通过生成的多个Partition，从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性，通过多个Partition，直接从MPP的存储节点快速获取数据集。进一步地，在计算资源充足的情况下，可以对存储节点的数据表进行进一步的拆分，以达到提高并行度，提升数据导入性能的目的。可以根据MPP集群的数据分布情况，优先从本地存储中获取数据，减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

2.

发明公开
一种基于Spark计算框架的数据获取方法和装置失效

公开(公告)号：CN108536808A

公开(公告)日：2018-09-14

申请号：CN201810296682.3

申请日：2018-04-04

Applicant: 国家计算机网络与信息安全管理中心 , 天津神舟通用数据技术有限公司

Inventor： 吕雁飞 , 刘欣然 , 张鸿 , 蒋旭 , 马秉楠 , 惠榛 , 朱亚南

IPC: G06F17/30

Abstract: 本发明公开了一种基于Spark计算框架的数据获取方法和装置。该方法包括：在接收到表对象访问请求之后，获取Spark的计算资源信息以及MPP集群中待访问的数据表的数据分布信息；根据计算资源信息和数据分布信息，生成多个Partition；其中，每个Partition对应数据表中的部分数据；通过生成的多个Partition，从MPP集群中获取数据表。本发明充分利用MPP集群的数据存储特性，通过多个Partition，直接从MPP的存储节点快速获取数据集。进一步地，在计算资源充足的情况下，可以对存储节点的数据表进行进一步的拆分，以达到提高并行度，提升数据导入性能的目的。可以根据MPP集群的数据分布情况，优先从本地存储中获取数据，减少数据传输开销、节约网络带宽、减少网络延迟、提高计算性能。

3.

发明授权
基于SparkSQL的透明分区方法及装置失效

公开(公告)号：CN109902101B

公开(公告)日：2021-04-02

申请号：CN201910122512.8

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 吕雁飞 , 马秉楠 , 惠榛 , 徐庆 , 兰钢临

IPC: G06F16/2453 , G06F16/242

Abstract: 本发明公开了一种基于SparkSQL的透明分区方法及装置，所述方法包括：在建表语句提交后，获取用户在创建分区表时指定分区字段和采用的分区策略，通过SQL解析器确定透明分区并将透明分区信息进行保存；当用户通过SQL查询数据时，通过SQL解析生成逻辑执行计划；根据逻辑执行计划中的查询条件，并结合保存的透明分区信息计算出本次查询的数据分区，然后通过改写逻辑执行计划并生成优化后的物理执行计划；根据生成的物理执行计划的执行步骤划分出具体的任务，通过所述任务从所述数据分区中读取数据。

4.

发明公开
一种数据查询方法和装置无效

公开(公告)号：CN108536728A

公开(公告)日：2018-09-14

申请号：CN201810158917.2

申请日：2018-02-24

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 惠榛 , 张鸿 , 刘欣然 , 郭东东 , 吕雁飞 , 马秉楠 , 兰钢临

IPC: G06F17/30

Abstract: 本发明公开了一种数据查询方法和装置。该方法包括：获取查询计划；确定所述查询计划中包含的数据源信息；根据所述数据源信息，对所述查询计划执行转义操作；根据转义后的所述查询计划，从所述数据源信息对应的数据源中查询数据并展示查询结果。本发明通过将查询计划进行转义操作，将查询计划转义为需要查询的数据库能够识别的语言，通过这种操作，可以使用一条查询计划同时查询不同数据库，实现跨平台联合查询，提升了数据查询效率，打通了不同数据库之间的技术壁垒，降低了开发人员的学习门槛。

5.

发明授权
基于kubernetes的hdfs-hbase部署方法及装置有权

公开(公告)号：CN109885316B

公开(公告)日：2023-05-09

申请号：CN201910119277.9

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 吕雁飞 , 张晨飞 , 储小刚 , 马秉楠 , 惠榛 , 鹿林

IPC: G06F8/61

Abstract: 本发明公开了一种基于kubernetes的hdfs‑HBase部署方法，所述方法包括：计算层通过kubernetes模块获取服务器信息，打包基础镜像，并在所述镜像仓库中保存Hbase基础配置；在用户创建Hbase应用时，计算层通过管理页面获取用户输入的需求信息，修改Hbase基础配置，遴选服务器并打标签，并根据本次Hbase部署的需求信息，生成yaml文件，并调用所述kubernetes模块；所述kubernetes模块按照所述yaml文件要求部署并启动Hbase集群，并将所述Hbase集群添加到巡检队列中；所述巡检系统对所述巡检队列进行轮询。

6.

发明授权
支持HIVE自动分区的加载系统及其实现方法有权

公开(公告)号：CN109902126B

公开(公告)日：2021-12-07

申请号：CN201910119268.X

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 马秉楠 , 吕雁飞 , 惠榛 , 孟宪文

IPC: G06F16/27 , G06F16/2455

Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法，所述方法包括：数据源模块，用于接收数据，对数据进行预备分类，按照数据的来源和数据头上所携带的配置信息进行预处理，得到数据所需要写入的对应的HIVE表，将映射关系放入到数据头中，并将数据放入到数据通道；数据通道，用于作为所述数据源模块和所述输出接口模块之间的数据通道；输出接口模块，用于从数据通道中获取数据，对数据反序列化，进行进一步的校验，依据加载系统在HIVE中所获取的分区设置计算出分区，将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值，依据该key值，从文件写入管理模块中获取对应的文件句柄，将数据写入至hdfs或者其他存储介质中。

7.

发明公开
基于SparkSQL的透明分区方法及装置失效

公开(公告)号：CN109902101A

公开(公告)日：2019-06-18

申请号：CN201910122512.8

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 吕雁飞 , 马秉楠 , 惠榛 , 徐庆 , 兰钢临

IPC: G06F16/2453 , G06F16/242

Abstract: 本发明公开了一种基于SparkSQL的透明分区方法及装置，所述方法包括：在建表语句提交后，获取用户在创建分区表时指定分区字段和采用的分区策略，通过SQL解析器确定透明分区并将透明分区信息进行保存；当用户通过SQL查询数据时，通过SQL解析生成逻辑执行计划；根据逻辑执行计划中的查询条件，并结合保存的透明分区信息计算出本次查询的数据分区，然后通过改写逻辑执行计划并生成优化后的物理执行计划；根据生成的物理执行计划的执行步骤划分出具体的任务，通过所述任务从所述数据分区中读取数据。

8.

发明公开
面向Spark JDBC的任务优先级控制的实现方法及装置失效

公开(公告)号：CN109857535A

公开(公告)日：2019-06-07

申请号：CN201910122390.2

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 惠榛 , 吕雁飞 , 马秉楠 , 李斌斌 , 王振宇 , 黄航 , 王树鹏

IPC: G06F9/48 , G06F9/50 , G06F16/242 , G06F16/25

Abstract: 本发明公开了一种面向Spark JDBC的任务优先级控制的实现方法及装置，所述方法包括：SparkJdbc服务在启动时根据预先编写好的优先级队列描述XML文件建立多个任务优先级队列；接收用户通过Jdbc接口下发的指定优先级队列命令，完成Jdbc会话级别的优先级设置；接收用户提交的检索SQL，将SQL语句经过多个分析规划过程后生成一个Spark Task集合并被添加到相应名称的目标优先级队列中；通过资源调度器根据各个优先级队列之间的资源分配策略和队列内部的资源分配策略进行硬件资源的调度分配，将Spark Task分发到各个计算节点上的Task执行器上进行执行。

9.

发明公开
一种基于数据立方体的分布式系统故障诊断方法失效

公开(公告)号：CN106487592A

公开(公告)日：2017-03-08

申请号：CN201610921292.1

申请日：2016-10-21

Applicant: 国家计算机网络与信息安全管理中心 , 长安通信科技有限责任公司

Inventor： 赵丽 , 王泽 , 朱春鸽 , 樊冬进 , 郭三川 , 张鹤 , 吕雁飞 , 何慧虹 , 柳哲

IPC: H04L12/24 , H04L12/26

Abstract: 本发明提供一种基于数据立方体的分布式系统故障诊断方法，其方法步骤如下：获取分布式系统测试数据，其包括外部测试数据和内部监测定位数据；测试数据预处理，建立测试数据集；构建数据立方体：通过分析数据立方体，诊断分布式系统故障；再次执行故障诊断。通过该方法能够显著提高准确定位故障的效率，大大降低对故障定位人员的要求。

10.

发明公开
一种基于图结构的日志聚类方法失效

公开(公告)号：CN105468677A

公开(公告)日：2016-04-06

申请号：CN201510781245.7

申请日：2015-11-13

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 吕雁飞 , 王树鹏 , 张鸿 , 丁煜 , 樊冬进 , 肖东方 , 郑亚松 , 周晓阳 , 何慧虹 , 史亮

IPC: G06F17/30

Abstract: 本发明提供一种基于图结构的日志聚类方法，包括，基于文本分词、向量相似度以及最大连通子图对日志进行聚类，获取特征库；并根据特征库中的类别特征对海量日志进行类别标记；该方法无需人工指定聚类数目，自动识别海量日志中最合适的类别数目；另外，该方法可对日志进行精准分类，为海量日志数据挖掘奠定了基础。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification