一种基于推送模型的分布式计算集群本地性调度方法

    公开(公告)号:CN108509280A

    公开(公告)日:2018-09-07

    申请号:CN201810367756.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于推送模型的分布式计算集群本地性调度方法,包括以下步骤:第一步,各应用管理器为每个计算任务生成一个资源请求,发送给集群调度器;第二步,集群调度器对收到的资源请求进行分类;第三步,对分类好的资源请求进行剪枝处理;第四步,节点管理器通过心跳来触发调度;第五步,对于等待时间超过了最大延迟时间的资源请求,缓存到待推送的资源请求队列中;第六步,将待推送的资源请求主动推送到其数据所在的节点进行调度;第七步,降低推送失败的资源请求所要求的数据本地性。本发明可解决现有集群调度器在内存计算场景下本地性差的问题,提高数据本地性,同时解决长尾效应问题。

    在交互式R语言平台中进行并行线性代数计算的方法

    公开(公告)号:CN105389220A

    公开(公告)日:2016-03-09

    申请号:CN201510755923.2

    申请日:2015-11-09

    Applicant: 南京大学

    CPC classification number: G06F9/547 G06F9/5022 G06F17/16 G06F2209/541

    Abstract: 本发明公开了一种基于交互式R语言平台的并行化线性代数计算的方法,包括以下步骤:提供两个计算平台,一个是交互式R语言平台,另外一个是并行线性代数计算平台,两个计算平台通过计算机网络进行通信;然后在交互式R语言平台中,设计实现一个并行线性代数计算的应用程序接口;最后在并行线性代数计算的应用程序接口的分布式矩阵类中,包含一个R环境类型的成员变量,并在分布式矩阵类的对象的初始化过程中,通过R语言的reg.finalizer函数向交互式R语言平台的垃圾回收器注册该成员变量的垃圾回收响应方式。本发明解决了现有的交互式R语言编程平台无法进行并行线性代数计算的不足,扩展了交互式R语言平台的计算能力。

    一种自动化云原生大数据查询加速方法

    公开(公告)号:CN116561169A

    公开(公告)日:2023-08-08

    申请号:CN202310545641.4

    申请日:2023-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种自动化云原生大数据查询加速方法,该方法包括如下步骤:集群管理员创建缓存系统集群;用户提交查询过程访问的数据表描述;控制器检查缓存系统创建情况,修改元数据存储组件中数据表元信息;控制器将对应数据表挂载到缓存系统中;用户将大数据查询提交至大数据查询系统中,初次访问数据时会将数据表从远程存储中读取,后续访问相同数据表将直接通过缓存系统进行访问;本发明在云原生场景下给用户提供自动化的数据访问加速,降低用户使用门槛与编程开销,提高查询的执行效率,缓解了云原生存算分离架构带来的数据访问延迟以及数据存储异构等问题。

    基于管道模型与任务合并的大数据质量管理任务调度方法

    公开(公告)号:CN111459646B

    公开(公告)日:2023-03-21

    申请号:CN202010387106.7

    申请日:2020-05-09

    Applicant: 南京大学

    Inventor: 顾荣 齐扬 黄宜华

    Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。

    一种用于加速云平台数据库LSM树查询的高效过滤方法

    公开(公告)号:CN115292308A

    公开(公告)日:2022-11-04

    申请号:CN202210790603.0

    申请日:2022-07-05

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于加速云平台数据库LSM树查询的高效过滤方法,包括如下步骤:将已写入的数据按自身特点划分至互相独立的数据集子块内,为每一个数据集子块单独构建缓存行大小的分块布隆过滤器;结合在本数据块内缺失,但是历史查询频繁的数据,自适应调整已写入的数据的哈希函数集并存入分块哈希表达器;将分块布隆过滤器以及分块哈希映射表共同构成分块哈希自适应过滤器,并部署到系统中。在进行数据是否写入的判断时,采用单指令多数据流技术同时检测一个块内多个比特位。本发明将过滤器按缓存行大小进行分块,并行检测分块内的比特数据,极大提升了查询效率,并结合哈希自适应技术,有效避免了分块带来的准确性降低问题。

    面向云上广域网的多径瓶颈公平性约束的两阶段路由方法

    公开(公告)号:CN115277531A

    公开(公告)日:2022-11-01

    申请号:CN202210909508.8

    申请日:2022-07-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向云上广域网的多径瓶颈公平性约束的两阶段路由方法。首先,本方法将网络抽象为有向图模型,将带宽分配方案形式化描述。其次,本发明方法基于上述模型建立了多径瓶颈公平性约束条件。然后,本发明方法实现了一种基于链路层级的两阶段路由算法。最后,根据带宽分配结果缩减网络,得到多径瓶颈公平分配方案。本发明方法能够有效地提升总吞吐量,或是在总吞吐量持平的基础上,大幅提升公平性。

    一种面向深度学习的作业资源自动弹性伸缩方法

    公开(公告)号:CN114816757A

    公开(公告)日:2022-07-29

    申请号:CN202210477181.1

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的作业资源自动弹性伸缩方法,包括如下步骤:用户通过系统接口提交深度学习作业和作业描述文件;根据同类型作业的历史执行数据,建立作业资源预测模型;使用该模型预测作业的初始资源量,启动相应数量的实例;对每一个作业实例,基于主机资源负载、集群拓扑、用户偏好以及GPU设备的分布进行调度;每一轮深度学习训练迭代完成后,判断作业能否按预期时间完成;根据作业当前执行速度,计算作业资源弹性伸缩系数;进行作业实例数的自动调整。本发明可解决现有弹性伸缩方法在深度学习场景下资源利用率低、GPU设备分配依赖人工的问题。

    一种基于机器学习模型样本生成的在线近似查询方法

    公开(公告)号:CN114722088A

    公开(公告)日:2022-07-08

    申请号:CN202210477174.1

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于机器学习模型样本生成的在线近似查询方法。首先,对数据表中的元组进行标注,赋予标签。然后,将元组以及标签编码为向量形式。在此基础上,使用数据表元组向量训练机器学习模型,从而学习数据底层分布信息,因此可以生成数据表样本元组。接着,解析查询语句以获取查询关键信息,并根据样本分配算法计算各类样本元组的需要生成数量。最后,根据样本分配结果,利用训练完毕的机器学习模型生成相应数量的样本元组以组成样本表,并基于样本表估计近似查询结果。本发明可以减少近似查询中数据读取开销,在保证近似查询结果精度的前提下提高近似查询效率,解决现有近似查询方法采样效率低、结果误差大的问题。

    一种基于推送模型的分布式计算集群本地性调度方法

    公开(公告)号:CN108509280B

    公开(公告)日:2022-05-31

    申请号:CN201810367756.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于推送模型的分布式计算集群本地性调度方法,包括以下步骤:第一步,各应用管理器为每个计算任务生成一个资源请求,发送给集群调度器;第二步,集群调度器对收到的资源请求进行分类;第三步,对分类好的资源请求进行剪枝处理;第四步,节点管理器通过心跳来触发调度;第五步,对于等待时间超过了最大延迟时间的资源请求,缓存到待推送的资源请求队列中;第六步,将待推送的资源请求主动推送到其数据所在的节点进行调度;第七步,降低推送失败的资源请求所要求的数据本地性。本发明可解决现有集群调度器在内存计算场景下本地性差的问题,提高数据本地性,同时解决长尾效应问题。

    一种通用主题嵌入模型联合训练方法

    公开(公告)号:CN108549718B

    公开(公告)日:2019-10-18

    申请号:CN201810368425.6

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。

Patent Agency Ranking