一种基于分布式并进计算框架的逆时偏移成像方法

    公开(公告)号:CN113238283A

    公开(公告)日:2021-08-10

    申请号:CN202110506615.1

    申请日:2021-05-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于分布式并进计算框架的逆时偏移成像方法,对于保存在分布式文件系统中的波场数据和相关参数,共包含四个步骤。第一步,从分布式文件系统中取出波场数据和相关参数,第二步,将波场数据按照规则划分为多个子波场数据,通过自定义的BlockPart it ioner策略将每个子波场数据块尽可能均匀地分发给不同的计算节点;第三步,在每个计算节点上对波场数据执行逆时偏移成像算法,并通过Pre‑Shuff le策略和Cache策略减少Shuff le Read大小;第四步,将每个计算节点上的成像波场按顺序叠加在一起并存储在分布式文件系统中。本发明能在大规模数据场景下高效的对波场数据进行存储、读取和计算。

    基于管道模型与任务合并的大数据质量管理任务调度方法

    公开(公告)号:CN111459646A

    公开(公告)日:2020-07-28

    申请号:CN202010387106.7

    申请日:2020-05-09

    Applicant: 南京大学

    Inventor: 顾荣 齐扬 黄宜华

    Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。

    规则驱动和数据驱动相结合的跨平台SQL查询优化方法

    公开(公告)号:CN111444220A

    公开(公告)日:2020-07-24

    申请号:CN202010387095.2

    申请日:2020-05-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种规则驱动和数据驱动相结合的跨平台SQL查询优化方法,包括以下步骤:第一步,将跨平台SQL语句解析成系统内部的逻辑查询计划;第二步,优化器调度模块依据逻辑查询计划的特点调度最适合的优化器进行查询优化;第三步,规则驱动的优化器依据规则进行计划搜索,并依据代价模型和基数估算进行执行计划的选择,得到最佳物理执行计划,且将优化结果导入样本采集模块;第四步,样本采集模块导入的样本经过数据适配模块转化为训练样本,数据驱动的优化器利用训练样本进行强化学习模型训练,将查询输入训练好的模型得到最佳物理执行计划。本发明解决了现有跨平台SQL查询优化方法可拓展性差、灵活性低、优化效果差等问题。

    基于MapReduce的数据传输方法和装置

    公开(公告)号:CN111444148A

    公开(公告)日:2020-07-24

    申请号:CN202010273234.9

    申请日:2020-04-09

    Inventor: 耿筱喻 顾荣 郭俊

    Abstract: 本申请实施例公开了基于MapReduce的数据传输方法和装置。该方法的一具体实施方式包括:执行Map任务,以生成计算结果文件,其中,该计算结果文件中包括与Reduce端数目一致的分区及其对应的数据;将该计算结果文件上传至提供冗余存储的目标文件系统,以使对应的Reduce端通过该目标文件系统获取该计算结果文件中的数据,其中,该目标文件系统按照预定的命名规则对该计算结果文件进行命名,以及按照预定目录结构对该计算结果文件进行存储。该实施方式避免了由于重计算而带来的计算资源消耗和时间花销,提升Shuffle过程的稳定性,并且具备较好的普适性。

    一种阈值自适应的集合相似连接方法

    公开(公告)号:CN108573052A

    公开(公告)日:2018-09-25

    申请号:CN201810368421.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种阈值自适应的集合相似连接方法,对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ,共包含六个步骤,其中前两个步骤属于数据预处理阶段,后四个步骤属于相似连接阶段:第一步,对R和S中所有的集合元素按照出现频率重编号;第二步,计算S集合元素的倒排索引I并将I存入数据库;第三步,对于R中的每条记录r,利用过滤器得到S中与r的相似度系数不小于阈值τ的候选记录集;第四步和第五步分别计算全量计算和直接验证两种模式的数据库获取开销;第六步选择开销更小的方式计算r的相似记录对。本发明可在广阈值范围内均高效的进行集合相似连接计算,解决现有技术不能同时兼顾低阈值和高阈值情况的问题。

    一种分布式的子图枚举方法

    公开(公告)号:CN106991195A

    公开(公告)日:2017-07-28

    申请号:CN201710295982.5

    申请日:2017-04-28

    Applicant: 南京大学

    CPC classification number: G06F16/2237 G06F16/2246 G06F16/27

    Abstract: 本发明公开了一种分布式的子图枚举方法,包括以下步骤:第一步,根据输入的查询图生成一棵查询树,并将查询树分发到各个计算节点;第二步,根据查询树在输入的数据图上查询出部分匹配结果;第三步,根据部分匹配结果和查询树,完成子图匹配任务,生成匹配结果。其中第二步查询部分匹配结果在分布式图计算框架中完成,该步骤又分为以下两个子步骤:第一步,接收邻居顶点发送的部分匹配结果并进行连接操作生成新的部分匹配结果;第二步,将新的部分匹配结果发送给邻居节点。本发明在分布式环境中高效地完成了子图枚举计算任务,改善了现有的分布式子图枚举计算方法网络开销过大,性能较低等问题。

    一种基于分布存储和并行计算的电网数据质量检测方法

    公开(公告)号:CN104391903A

    公开(公告)日:2015-03-04

    申请号:CN201410647792.1

    申请日:2014-11-14

    CPC classification number: G06F17/30321 G06F17/30445 G06F17/30595

    Abstract: 本发明公开了一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:采用HBase存储原始数据记录;采用HBase对校验规则涉及到的字段建立查询索引;采用HBase对原始数据记录建立时间戳索引,以便支持增量数据质量校验和细时间粒度的数据质量校验;采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量历史数据质量校验时能够快速加载校验数据,提升校验性能;采用基于MapReduce的校验规则并行化处理,通过规则并行化处理提升校验性能。本发明解决了现有的基于关系数据库系统的电网数据质量检测方法可扩展性差,校验延时大,系统性价比低的问题。

Patent Agency Ranking