-
公开(公告)号:CN112347097A
公开(公告)日:2021-02-09
申请号:CN202011011197.0
申请日:2020-09-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/242 , G06F16/27
Abstract: 本发明提供的支持多版本Hive表分区的数据加载、查询方法及电子装置,包括获取每条数据的分区字段;根据分区字段与各分区字段值列表的匹配关系,将每条数据写入相应的Hive表分区内;若存入哈希分区或自动间隔分区时,分区字段不能与现有的值列表匹配,创建新的哈希分区或自动间隔分区并生成新版本;若数据存入列表分区或区间分区时,列表分区规则或区间分区规则发生改动并生成相应新版本时,写入相应的列表分区或区间分区。本发明能够面对海量数据的存储和查询提供更加高效的复杂分区机制,在保持历史数据分区规则不变的同时,以多版本技术支持对增量数据分区规则在线调整,避免无意义扫描和计算,节省大量时间,极大提高系统的可维护性和查询效率。
-
公开(公告)号:CN112347097B
公开(公告)日:2022-07-29
申请号:CN202011011197.0
申请日:2020-09-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/242 , G06F16/27
Abstract: 本发明提供的支持多版本Hive表分区的数据加载、查询方法及电子装置,包括获取每条数据的分区字段;根据分区字段与各分区字段值列表的匹配关系,将每条数据写入相应的Hive表分区内;若存入哈希分区或自动间隔分区时,分区字段不能与现有的值列表匹配,创建新的哈希分区或自动间隔分区并生成新版本;若数据存入列表分区或区间分区时,列表分区规则或区间分区规则发生改动并生成相应新版本时,写入相应的列表分区或区间分区。本发明能够面对海量数据的存储和查询提供更加高效的复杂分区机制,在保持历史数据分区规则不变的同时,以多版本技术支持对增量数据分区规则在线调整,避免无意义扫描和计算,节省大量时间,极大提高系统的可维护性和查询效率。
-
公开(公告)号:CN106909624A
公开(公告)日:2017-06-30
申请号:CN201710043943.6
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种海量数据实时排序优化方法。本方法为:1)设置一集群级节点、若干节点级节点和若干文件级节点;2)集群级节点将收到的检索排序请求发送给各节点级节点,各节点级节点将该检索排序请求发送给本节点的文件级节点;3)各文件级节点根据该检索排序请求,将与本节点相关的日志文件排序后输出有序数据给节点级节点;4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点;5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中,本方法都能有效降低内存使用量。
-
公开(公告)号:CN112256982B
公开(公告)日:2022-08-16
申请号:CN202010967453.7
申请日:2020-09-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9537 , G06F16/9536 , G06F16/2458
Abstract: 本发明提供一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置,包括采集目标用户E0各关联设备Uk的时空数据,依据各关联设备Uk出现记录,计算与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk;通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Ul的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j;若设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk同行设备列表Qk;依据各同行设备列表Qk,得到同行用户列表Y。本发明通过多种过滤与排序机制,可以挖掘出有效的目标同行关系,同时支持不同类型数据之间的融合使用。
-
公开(公告)号:CN112256982A
公开(公告)日:2021-01-22
申请号:CN202010967453.7
申请日:2020-09-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9537 , G06F16/9536 , G06F16/2458
Abstract: 本发明提供一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置,包括采集目标用户E0各关联设备Uk的时空数据,依据各关联设备Uk出现记录,计算与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk;通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Ul的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j;若设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk同行设备列表Qk;依据各同行设备列表Qk,得到同行用户列表Y。本发明通过多种过滤与排序机制,可以挖掘出有效的目标同行关系,同时支持不同类型数据之间的融合使用。
-
公开(公告)号:CN106909624B
公开(公告)日:2020-05-22
申请号:CN201710043943.6
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/172 , G06F16/17 , G06F16/2453 , G06F16/2455 , G06F16/2457 , G06F16/9535
Abstract: 本发明公开了一种海量数据实时排序优化方法。本方法为:1)设置一集群级节点、若干节点级节点和若干文件级节点;2)集群级节点将收到的检索排序请求发送给各节点级节点,各节点级节点将该检索排序请求发送给本节点的文件级节点;3)各文件级节点根据该检索排序请求,将与本节点相关的日志文件排序后输出有序数据给节点级节点;4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点;5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中,本方法都能有效降低内存使用量。
-
-
-
-
-