一种融合系统语义的大数据系统参数自动优化方法

    公开(公告)号:CN113204539B

    公开(公告)日:2023-08-22

    申请号:CN202110516717.1

    申请日:2021-05-12

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合系统语义的大数据系统参数自动优化方法,包括如下步骤:对系统运行作业和数据集进行特征提取;学习历史作业和数据集的大数据系统参数调优日志,形成参数预测模型;根据作业和数据集特征,预测较优的参数配置;从预测参数配置(较优)开始,配置系统参数并执行作业;在作业执行过程或执行结束后进行多维度性能分析;根据分析结果进行遗传搜索,得到更优参数;根据系统语义判断参数配置的合理性,实现参数搜索过程中的剪枝优化。本发明在多种大数据应用场景下均实现了大数据系统参数自动优化,提高大数据计算作业性能,解决现有技术不能同时兼顾参数推荐精准度和参数搜索效率的问题。

    一种基于Spark的大规模分布式DataFrame的查询方法

    公开(公告)号:CN110046176B

    公开(公告)日:2023-03-31

    申请号:CN201910347850.1

    申请日:2019-04-28

    Applicant: 南京大学

    Inventor: 顾荣 黄宜华 施军

    Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法,包括以下步骤:采用了基于分布式计算执行引擎Spark的系统框架,以DataFrame作为编程模型,Python作为编程语言;在该分布式系统中,通过封装Spark原生DataFrame的已有查询接口,消除了与主流单机DataFrame计算库Pandas的API的不兼容性;构建轻量级全局索引,针对不同情况提供多种分布式DataFrame查询的功能;构建局部索引和辅助索引,提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好,无法处理大规模数据,以及现有的大数据处理平台分布式DataFrame查询接口不丰富,易用性差,性能低的问题。

    一种基于热点数据上流的云平台键值存储数据编排方法

    公开(公告)号:CN115203203A

    公开(公告)日:2022-10-18

    申请号:CN202210812128.2

    申请日:2022-07-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于热点数据上流的云平台键值存储数据编排方法。该方法首先定义了一个实时跟踪时间窗口中键值数据的近似数据结构;然后,通过该数据结构得以实时获取键值数据最新的访问频次和时刻;随后,根据数据访问频次和时刻信息得到数据热度模型,从而实时感知键值数据的热度;紧接着,统计出各个热度的数据量,形成数据热度表,依据数据热度表能够得到每个数据的热度排名;最后,根据数据热度表对云平台键值存储数据进行数据编排,实现数据的自动预热。本发明可以从键值数据云平台中的数据访问模式出发,跟踪键值数据的访问频次和时间节点,从而构建一个键值数据热度表,以实现键值存储数据的自动预热。

    一种基于动态优化模型的云平台流处理资源分配方法

    公开(公告)号:CN115185683A

    公开(公告)日:2022-10-14

    申请号:CN202210785420.X

    申请日:2022-07-04

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于动态优化模型的云平台流处理资源分配方法。该方法首先定义流处理任务的算子性能模型;然后,引入通信开销因子并修正上述算子性能模型;之后,感知用户提交的流处理任务,并诊断其性能状态;随后,以默认并行度做参数预设,得到初步的模型拟合曲线,并持续拟合优化通信开销模型,使模型与性能指标的误差尽量小;紧接着,对算子性能模型进行更新,若需要伸缩,则进行任务重配置;最后,重复上述过程直到流处理作业完成。本发明可以考虑流处理算子在复杂任务中的通信开销,并构建一个非线性的算子性能模型,以实现云平台流处理系统资源的及时、合理分配。

    一种面向服务器无感知的数据传输成本优化方法

    公开(公告)号:CN114996228A

    公开(公告)日:2022-09-02

    申请号:CN202210617619.1

    申请日:2022-06-01

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向服务器无感知(Serverless)的数据传输成本优化方法,包括如下步骤:测试分析服务器无感知环境的带宽、云函数的计算能力以及计费模式;建立传输时间与传输成本预测模型;用户提交传输任务,在传输任务中指定传输的地址以及执行的时间约束;生成采样任务对新文件进行特征采样,然后利用压缩性能预测模型预测文件的压缩率信息;系统根据任务描述选择传输成本最低且满足时间约束的传输参数;系统根据任务描述以及传输参数,利用服务器无感知计算资源进行实际传输;系统收集执行结果,并更新传输时间预测模型以及压缩性能预测模型。本发明能够保障传输任务在规定时间内完成的前提下,以最低的成本完成传输任务。

    面向深度学习的GPU资源管理与智能化调度方法

    公开(公告)号:CN112416585A

    公开(公告)日:2021-02-26

    申请号:CN202011310749.8

    申请日:2020-11-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。

    一种分布式的子图枚举方法

    公开(公告)号:CN106991195B

    公开(公告)日:2020-08-11

    申请号:CN201710295982.5

    申请日:2017-04-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种分布式的子图枚举方法,包括以下步骤:第一步,根据输入的查询图生成一棵查询树,并将查询树分发到各个计算节点;第二步,根据查询树在输入的数据图上查询出部分匹配结果;第三步,根据部分匹配结果和查询树,完成子图匹配任务,生成匹配结果。其中第二步查询部分匹配结果在分布式图计算框架中完成,该步骤又分为以下两个子步骤:第一步,接收邻居顶点发送的部分匹配结果并进行连接操作生成新的部分匹配结果;第二步,将新的部分匹配结果发送给邻居节点。本发明在分布式环境中高效地完成了子图枚举计算任务,改善了现有的分布式子图枚举计算方法网络开销过大,性能较低等问题。

    一种通用后缀树的分布式并行构建方法

    公开(公告)号:CN107015868B

    公开(公告)日:2020-05-01

    申请号:CN201710232797.1

    申请日:2017-04-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用后缀树的分布式并行构建方法,包括以下步骤:第一步,整合输入序列并将其平均分配给每个计算节点;第二步,并行地统计子序列频数,确定所有的子树构建任务;第三步,将这些子树构建任务按规模尽量均匀地分配给不同的计算节点;第四步,分轮批量构建所有子树。每一轮批量构建可以分为以下三步:第一步,并行扫描输入以定位本轮构建任务需要的后缀并分别排序,将排序结果汇总至负责构建任务的计算节点;第二步,多路归并生成全局有序的后缀排序结果;第三步,利用排序结果生成对应的后缀子树。本发明可高效地并行构建通用后缀树,解决现有通用后缀树构建方法过于依赖I/O或主存容量、通用性不足、应对大规模输入困难等问题。

    一种基于Spark的大规模分布式DataFrame的查询方法

    公开(公告)号:CN110046176A

    公开(公告)日:2019-07-23

    申请号:CN201910347850.1

    申请日:2019-04-28

    Applicant: 南京大学

    Inventor: 顾荣 黄宜华 施军

    Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法,包括以下步骤:采用了基于分布式计算执行引擎Spark的系统框架,以DataFrame作为编程模型,Python作为编程语言;在该分布式系统中,通过封装Spark原生DataFrame的已有查询接口,消除了与主流单机DataFrame计算库Pandas的API的不兼容性;构建轻量级全局索引,针对不同情况提供多种分布式DataFrame查询的功能;构建局部索引和辅助索引,提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好,无法处理大规模数据,以及现有的大数据处理平台分布式DataFrame查询接口不丰富,易用性差,性能低的问题。

    基于Spark的大规模短语翻译模型的训练方法

    公开(公告)号:CN106055543B

    公开(公告)日:2019-04-09

    申请号:CN201610346396.4

    申请日:2016-05-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

Patent Agency Ranking