-
公开(公告)号:CN109002467A
公开(公告)日:2018-12-14
申请号:CN201810588554.6
申请日:2018-06-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种向量化执行的数据库排序方法,包括:将输入数据向量化为多个输入数据行组;在计算节点的内存中开辟大小为最适粒度的缓冲区;将该输入数据行组依次追加至该缓冲区的末尾空位;仅当该缓冲区满或所有该输入数据行组均已追加至该缓冲区时,将存入该缓冲区的输入数据行组调入该计算节点的处理器缓存进行排序以得到缓存输出数据行组,将该缓存输出数据行组输出至该内存并清空该缓冲区;当该内存满或所有该缓存输出数据行组均已输出至该内存时,将该内存中的该缓存输出行组排序以生成输出数据行组,将该输出数据行组保存至该计算结点的磁盘并释放内存;合并所有该输出数据行组以得到顺序排列的全序输出数据行组。
-
公开(公告)号:CN112596895B
公开(公告)日:2023-09-12
申请号:CN202011403412.1
申请日:2020-12-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种SQL语义感知的弹性倾斜处理方法和系统,针对MapReduce平台由于倾斜分片而导致处理的并行度下降问题,提出了基于细粒度定长子分片的两级弹性并行处理机制,提高处理倾斜分片的并行度,同时减少子分片之间的同步开销;并且针对MapReduce平台由于倾斜分片而导致的容错性能降低问题,提出了子分片级检查点机制,实现倾斜负载的快速故障恢复。
-
公开(公告)号:CN112596895A
公开(公告)日:2021-04-02
申请号:CN202011403412.1
申请日:2020-12-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种SQL语义感知的弹性倾斜处理方法和系统,针对MapReduce平台由于倾斜分片而导致处理的并行度下降问题,提出了基于细粒度定长子分片的两级弹性并行处理机制,提高处理倾斜分片的并行度,同时减少子分片之间的同步开销;并且针对MapReduce平台由于倾斜分片而导致的容错性能降低问题,提出了子分片级检查点机制,实现倾斜负载的快速故障恢复。
-
公开(公告)号:CN108920533A
公开(公告)日:2018-11-30
申请号:CN201810587466.4
申请日:2018-06-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种向量化的整体同步并行计算方法,包括:初始化步骤,设定并行计算计划,并根据初始数据的初始特征将该初始数据向量化为多个输入数据行组;并行计算步骤,通过多个计算节点对本轮的输入数据行组进行并行计算,以获取多个中间数据行组;向量化步骤,提取该中间数据行组的特征,根据该特征将所有该中间数据行组重排序并向量化为本轮的多个输出数据行组;循环步骤,以该输出数据行组为下轮的输入数据行组以进行下轮并行计算,直到完成该并行计算计划。
-
公开(公告)号:CN109002467B
公开(公告)日:2021-04-27
申请号:CN201810588554.6
申请日:2018-06-08
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2455
Abstract: 本发明涉及一种向量化执行的数据库排序方法,包括:将输入数据向量化为多个输入数据行组;在计算节点的内存中开辟大小为最适粒度的缓冲区;将该输入数据行组依次追加至该缓冲区的末尾空位;仅当该缓冲区满或所有该输入数据行组均已追加至该缓冲区时,将存入该缓冲区的输入数据行组调入该计算节点的处理器缓存进行排序以得到缓存输出数据行组,将该缓存输出数据行组输出至该内存并清空该缓冲区;当该内存满或所有该缓存输出数据行组均已输出至该内存时,将该内存中的该缓存输出行组排序以生成输出数据行组,将该输出数据行组保存至该计算结点的磁盘并释放内存;合并所有该输出数据行组以得到顺序排列的全序输出数据行组。
-
公开(公告)号:CN108920533B
公开(公告)日:2021-03-09
申请号:CN201810587466.4
申请日:2018-06-08
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2453
Abstract: 本发明涉及一种向量化的整体同步并行计算方法,包括:初始化步骤,设定并行计算计划,并根据初始数据的初始特征将该初始数据向量化为多个输入数据行组;并行计算步骤,通过多个计算节点对本轮的输入数据行组进行并行计算,以获取多个中间数据行组;向量化步骤,提取该中间数据行组的特征,根据该特征将所有该中间数据行组重排序并向量化为本轮的多个输出数据行组;循环步骤,以该输出数据行组为下轮的输入数据行组以进行下轮并行计算,直到完成该并行计算计划。
-
-
-
-
-