-
公开(公告)号:CN113835896A
公开(公告)日:2021-12-24
申请号:CN202111149214.1
申请日:2021-09-29
Abstract: 本发明提供一种Gaia系统中面向迭代计算的并行度动态调整方法,涉及分布式大数据计算系统及迭代计算技术领域。该方法不需要事先预测作业所需资源,而是在作业执行过程中进行迭代资源的动态调整。如果作业执行过程中出现Slot资源不足或占用过高的情况,则根据用户预先设定的资源利用率目标进行相应的Slot资源扩容,使得作业所需的迭代资源得到满足。如果作业执行过程中出现Slot资源浪费的情况,则根据用户预设的资源利用率目标进行相应的Slot资源进行缩容,使得迭代作业所占用的Slot资源数量进行相应的减少。该并行度动态调整方法不需要在作业执行之前就执行相似的作业,也不需要执行专门的作业短示例,无需额外过多的预测时间。
-
公开(公告)号:CN112416537A
公开(公告)日:2021-02-26
申请号:CN202011477680.8
申请日:2020-12-15
Abstract: 本发明提供一种Gaia系统中的统一表达API调用系统及调用方法,涉及大数据处理技术领域。该系统及方法首先创建一个管道对象并设置其执行选项作为API的分布式运行环境;管道对象封装整个API的数据处理任务;然后在创建的管道对象中构建API的初始数据集;并对API的数据集进行数据转换,将原数据集通过转换后生成一个新的数据集,而不改变原数据集;最后将数据转换后满足用户需求的数据集输出至指定位置。本发明的调用系统及方法,调用方便,使用简洁,解决了以往分布式系统中对于流计算和批计算相同功能需要使用不同的环境的问题。
-
公开(公告)号:CN105677757A
公开(公告)日:2016-06-15
申请号:CN201511020637.8
申请日:2015-12-30
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30619 , G06F17/30699
Abstract: 本发明提供一种基于双缀过滤的大数据相似性连接方法,包括:提取不同数据源的文本格式数据,得到待清洗的实体记录;对实体记录中的元素进行词频统计并对实体记录中的元素按词频升序排序;将实体记录前缀中的每一个元素作为该实体记录的索引,对实体记录建立倒排索引表;对同一个索引内的实体记录对进行双缀过滤相似性连接,得到相似度大于相似度阈值的实体记录对,实现分布式计算。本发明利用实体记录对中前后缀中元素位置信息实现过滤,极大地降低了候选集合的大小,针对不同大小的数据源以及不同阈值的情况,双缀过滤可以达到良好的时间效果。并且双缀过滤可以实现面向大数据的分布式计算,可以将其应用于分布式计算中,提高大数据清洗效率。
-
-