-
公开(公告)号:CN111046630B
公开(公告)日:2021-07-20
申请号:CN201911240324.1
申请日:2019-12-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种JSON数据的语法树提取方法,包括:对给定的数据集中的JSON数据进行采样,记录JSON记录结构树;遍历所有的JSON记录结构树以累加生成一个统计结构树;遍历统计结构树中每个节点的计数器,将JSON记录中的域划分为稀疏域和非稀疏域;将特征相同的稀疏域归类到一起,形成相同特征的域的归类;基于非稀疏域、相同特征的域的归类生成语法树的初始状态:根据语法树的初始状态,对给定的数据集中的所有JSON记录逐条进行解析,动态构建数据集对应的语法树。本发明通过对JSON数据记录(Record)中的稀疏的域按照特征进行归类,提高了语法树的组织效率;通过对具有相同特征的域进行归类,减少了解析后的数据的列式文件数量,从而提高了在后续查询过程中的效率。
-
公开(公告)号:CN111046630A
公开(公告)日:2020-04-21
申请号:CN201911240324.1
申请日:2019-12-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种JSON数据的语法树提取方法,包括:对给定的数据集中的JSON数据进行采样,记录JSON记录结构树;遍历所有的JSON记录结构树以累加生成一个统计结构树;遍历统计结构树中每个节点的计数器,将JSON记录中的域划分为稀疏域和非稀疏域;将特征相同的稀疏域归类到一起,形成相同特征的域的归类;基于非稀疏域、相同特征的域的归类生成语法树的初始状态:根据语法树的初始状态,对给定的数据集中的所有JSON记录逐条进行解析,动态构建数据集对应的语法树。本发明通过对JSON数据记录(Record)中的稀疏的域按照特征进行归类,提高了语法树的组织效率;通过对具有相同特征的域进行归类,减少了解析后的数据的列式文件数量,从而提高了在后续查询过程中的效率。
-
公开(公告)号:CN107016071A
公开(公告)日:2017-08-04
申请号:CN201710178692.2
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/2247 , G06F16/81 , G06F16/8365 , G06F16/8373
Abstract: 本发明提出利用简单路径特征优化的树状结构数据处理方法及系统,该方法包括步骤1,设置简单路径,其中所述简单路径为在数据定义的语法树中,从根节点到叶子节点最多只存在一个多值的域的路径;步骤2,通过在扁平行式结构数据中存储所述的简单路径上叶子节点的信息,获取路径上完整的嵌套结构;步骤3,在对列式数据查询过程中,需要将其组装为行式结构数据,通过简单路径的优化可以简化数据中的层次关系:仅通过叶子节点既可表示从根节点到叶子节点的路径而忽略路径中所有的非叶子节点。本发明中通过分析常见的半结构化数据,定义简单路径的概念,利用简单路径对STEED的数据存储、列式数据组装和查询过程进行了优化,提高了相关操作和功能的效率。
-
公开(公告)号:CN107066551B
公开(公告)日:2020-04-03
申请号:CN201710179108.5
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/80
Abstract: 本发明提出一种树状结构数据的行式和列式存储的方法及系统。使用该方法支持对树状结构的文本数据读取并解析为行式或者列式的二进制格式进行存储。其中在解析的过程中,动态生成语法树,存储半结构化数据的定义;在查询过程中,STEED通过语法树中读取原有数据的相关结构信息,结合二进制数据中的内容完成查询相关的操作。如上所述的行式存储结构以记录为单位,内部定义了嵌套子结构表示半结构化数据的嵌套和重复域;如上所述的列式存储以语法树中从根到叶子节点的每条路径为单位,将全部记录中这条路径的值及其结构信息进行单独存储。本发明通过对半结构化数据存储结构的分析,简化了数据存储的结构并提高了其存储效率。
-
公开(公告)号:CN107066551A
公开(公告)日:2017-08-18
申请号:CN201710179108.5
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提出一种树状结构数据的行式和列式存储的方法及系统。使用该方法支持对树状结构的文本数据读取并解析为行式或者列式的二进制格式进行存储。其中在解析的过程中,动态生成语法树,存储半结构化数据的定义;在查询过程中,STEED通过语法树中读取原有数据的相关结构信息,结合二进制数据中的内容完成查询相关的操作。如上所述的行式存储结构以记录为单位,内部定义了嵌套子结构表示半结构化数据的嵌套和重复域;如上所述的列式存储以语法树中从根到叶子节点的每条路径为单位,将全部记录中这条路径的值及其结构信息进行单独存储。本发明通过对半结构化数据存储结构的分析,简化了数据存储的结构并提高了其存储效率。
-
公开(公告)号:CN107092656B
公开(公告)日:2019-12-03
申请号:CN201710178695.6
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种树状结构数据处理方法及系统(System for TrEE structured Data,STEED),涉及数据处理技术领域,该系统支持读取文本数据,并将其解析为行式或者列式的二进制格式数据,其中在解析的过程中,动态生成语法树,存储半结构化数据的定义;存储行式或列式的所述二进制格式数据,其中实现对行式或列式的所述二进制格式数据相互转换,以及将所述二进制格式数据直接输出为文本格式的JSON数据;基于所述二进制格式数据,对半结构化数据进行查询操作。
-
公开(公告)号:CN107016071B
公开(公告)日:2019-06-18
申请号:CN201710178692.2
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/81 , G06F16/835 , G06F17/22
Abstract: 本发明提出利用简单路径特征优化的树状结构数据处理方法及系统,该方法包括步骤1,设置简单路径,其中所述简单路径为在数据定义的语法树中,从根节点到叶子节点最多只存在一个多值的域的路径;步骤2,通过在扁平行式结构数据中存储所述的简单路径上叶子节点的信息,获取路径上完整的嵌套结构;步骤3,在对列式数据查询过程中,需要将其组装为行式结构数据,通过简单路径的优化可以简化数据中的层次关系:仅通过叶子节点既可表示从根节点到叶子节点的路径而忽略路径中所有的非叶子节点。本发明中通过分析常见的半结构化数据,定义简单路径的概念,利用简单路径对STEED的数据存储、列式数据组装和查询过程进行了优化,提高了相关操作和功能的效率。
-
公开(公告)号:CN107092656A
公开(公告)日:2017-08-25
申请号:CN201710178695.6
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提出一种树状结构数据处理方法及系统(System for TrEE structured Data,STEED),涉及数据处理技术领域,该系统支持读取文本数据,并将其解析为行式或者列式的二进制格式数据,其中在解析的过程中,动态生成语法树,存储半结构化数据的定义;存储行式或列式的所述二进制格式数据,其中实现对行式或列式的所述二进制格式数据相互转换,以及将所述二进制格式数据直接输出为文本格式的JSON数据;基于所述二进制格式数据,对半结构化数据进行查询操作。
-
-
-
-
-
-
-