一种Gaia系统中的多表连接优化方法

    公开(公告)号:CN112256705B

    公开(公告)日:2022-11-01

    申请号:CN202011267934.3

    申请日:2020-11-13

    Abstract: 本发明提供一种Gaia系统中的多表连接优化方法,为了尽可能减少全局中间连接表体积进而降低I/O代价,本发明设计了一个连接索引结构,结合动态规划算法在优化连接顺序的同时对每个连接表的等值连接关系进行优化,同时针对连接计算代价和I/O代价进行了优化,有效地减少了多连接任务的运算时间和中间数据的传输量;也就是说,本发明设计了一种描述连接表中列关系的索引结构,此索引结构可以快速找到两个表的连接关系及每一列是否冗余列。

    一种Gaia系统中面向迭代计算的并行度动态调整方法

    公开(公告)号:CN113835896A

    公开(公告)日:2021-12-24

    申请号:CN202111149214.1

    申请日:2021-09-29

    Abstract: 本发明提供一种Gaia系统中面向迭代计算的并行度动态调整方法,涉及分布式大数据计算系统及迭代计算技术领域。该方法不需要事先预测作业所需资源,而是在作业执行过程中进行迭代资源的动态调整。如果作业执行过程中出现Slot资源不足或占用过高的情况,则根据用户预先设定的资源利用率目标进行相应的Slot资源扩容,使得作业所需的迭代资源得到满足。如果作业执行过程中出现Slot资源浪费的情况,则根据用户预设的资源利用率目标进行相应的Slot资源进行缩容,使得迭代作业所占用的Slot资源数量进行相应的减少。该并行度动态调整方法不需要在作业执行之前就执行相似的作业,也不需要执行专门的作业短示例,无需额外过多的预测时间。

    一种Gaia系统中的统一表达API调用系统及调用方法

    公开(公告)号:CN112416537A

    公开(公告)日:2021-02-26

    申请号:CN202011477680.8

    申请日:2020-12-15

    Abstract: 本发明提供一种Gaia系统中的统一表达API调用系统及调用方法,涉及大数据处理技术领域。该系统及方法首先创建一个管道对象并设置其执行选项作为API的分布式运行环境;管道对象封装整个API的数据处理任务;然后在创建的管道对象中构建API的初始数据集;并对API的数据集进行数据转换,将原数据集通过转换后生成一个新的数据集,而不改变原数据集;最后将数据转换后满足用户需求的数据集输出至指定位置。本发明的调用系统及方法,调用方便,使用简洁,解决了以往分布式系统中对于流计算和批计算相同功能需要使用不同的环境的问题。

    一种Gaia集群中面向节点间异构带宽的数据分发方法

    公开(公告)号:CN110868461B

    公开(公告)日:2020-10-27

    申请号:CN201911071510.7

    申请日:2019-11-05

    Abstract: 本发明公开了一种Gaia集群中面向节点间异构带宽的数据分发方法,能够减少数据分发所需的时间。Gaia集群接收用户提交的批处理作业,并将作业图提交至主节点。在主节点处,选择作业被部署运行的从节点。以最小化数据分发过程所需的数据传输时间为目的,构建基于数据传输时间的优化模型,计算作业被部署运行的从节点的最优数据分发比例。在作业图中添加采样逻辑,采样逻辑依据最优数据分发比例对待分发数据进行分段,同一段内的数据在数据分发时发送到同一节点上。根据修改后的作业图,生成执行图,并对执行图中的各子任务在作业被部署运行的从节点上进行部署并运行。批处理作业开始执行,并按最优数据分发比例对待分发数据进行分发。

    一种Gaia集群中面向节点间异构带宽的数据分发方法

    公开(公告)号:CN110868461A

    公开(公告)日:2020-03-06

    申请号:CN201911071510.7

    申请日:2019-11-05

    Abstract: 本发明公开了一种Gaia集群中面向节点间异构带宽的数据分发方法,能够减少数据分发所需的时间。Gaia集群接收用户提交的批处理作业,并将作业图提交至主节点。在主节点处,选择作业被部署运行的从节点。以最小化数据分发过程所需的数据传输时间为目的,构建基于数据传输时间的优化模型,计算作业被部署运行的从节点的最优数据分发比例。在作业图中添加采样逻辑,采样逻辑依据最优数据分发比例对待分发数据进行分段,同一段内的数据在数据分发时发送到同一节点上。根据修改后的作业图,生成执行图,并对执行图中的各子任务在作业被部署运行的从节点上进行部署并运行。批处理作业开始执行,并按最优数据分发比例对待分发数据进行分发。

    一种基于垂直分解的并行频繁闭序列挖掘方法

    公开(公告)号:CN106599122B

    公开(公告)日:2019-12-31

    申请号:CN201611091669.1

    申请日:2016-12-01

    Applicant: 东北大学

    Abstract: 本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,属于数据挖掘领域,该方法采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列;再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可缩短挖掘时间;本发明提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度;本发明采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法;充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本方法获得较高的加速比。

    一种面向大规模时序图上的图模拟匹配方法

    公开(公告)号:CN109753594A

    公开(公告)日:2019-05-14

    申请号:CN201910025968.2

    申请日:2019-01-11

    Applicant: 东北大学

    Abstract: 本发明涉及一种面向大规模时序图上的图模拟匹配方法,包括如下步骤:S1、将得到的时序图数据进行处理,转化为图方式存储;S2、在时序图G=(V,E,L)上根据查询图Q=(Vq,Eq,Lq,fe)进行图模拟匹配查询;得出最终模拟匹配查询结果。本发明方法实现了在时序图中进行图模拟匹配,弥补了目前时序图上图模拟匹配研究的匮乏,同时本方法所用的运行时间相较于将时序图转化为静态图然后进行图模拟的方法运行时间更短。

    面向Storm连续范围查询全局负载均衡的分组方法及查询方法

    公开(公告)号:CN107357659A

    公开(公告)日:2017-11-17

    申请号:CN201710536098.6

    申请日:2017-07-04

    Applicant: 东北大学

    Abstract: 本发明公开了一种面向Storm连续范围查询全局负载均衡的分组方法及查询方法,对网格索引下的连续范围查询,结合范围查询语义,利用Redis存储并负责更新网格内移动对象数量,将查询范围内的移动对象数量作为评估代价,按照查询代价将范围查询任务分到相应的组,同一个组内的范围查询任务轮询地分发到下游worker,轮询计数器由Redis维护,实现全局分组轮询的分组策略,能够根据分组策略有效地提高了系统负载均衡度,从而提高了系统的资源利用率。

    基于活动相似和社交信任的社交网好友推荐系统及方法

    公开(公告)号:CN104268171B

    公开(公告)日:2017-09-19

    申请号:CN201410462802.4

    申请日:2014-09-11

    Applicant: 东北大学

    Abstract: 本发明一种基于活动相似和社交信任的社交网好友推荐系统及方法,属于信息推荐和数据挖掘领域,该方法主要是利用用户社交信任值和活动偏好相似性来实现基于位置社交网络中好友推荐,由于活动可以体现用户兴趣偏好,因此通过用户间活动相似性发现与其偏好相似的好友;由于社交信任能反映用户间交互紧密程度,因此根据不同程度信任关系进行好友推荐具有更合理的可解释性;实验证明,本发明推荐效果在准确性和合理解释性上均优于现存的好友推荐方法,实际应用价值很高,如果能得到推广,对企事业单位明确目标客户范围,提高广告服务的关联度和准确性,提高广告营销价值均有重要的指导和决策意义。

    面向内存更新密集型程序的Hourglass和Piggyback算法

    公开(公告)号:CN107103055A

    公开(公告)日:2017-08-29

    申请号:CN201710237896.9

    申请日:2017-03-29

    Applicant: 东北大学

    Abstract: 本发明公开一种面向内存更新密集型程序的Hourglass和Piggyback算法,其优秀性能来源于在updater和dumper线程之间的指针交换技术,可以避免大量数据拷贝。它周期性的发生updater和dumper线程的角色交换,可以被周期性无止境的复用,一旦上面的部分为空的时候交换上下角色。可以拥有更少的内存和基本没有抖动的延时效果。其都属于轻量级检查点算法的一种,Hourglass结合了目前最好的两个算法zigzag和pingpong,从而利用两个的优点指针交换和比特位标志。Piggyback算法提高性能通过提供一种全量快照,从而可以支持实时olap和oltp的应用。其具有更小的内存占用、全量快照开销、更小的延时、更均匀的延时的优点。

Patent Agency Ranking