一种用于事件查询的索引加速模式匹配方法、装置及存储介质

    公开(公告)号:CN119149542A

    公开(公告)日:2024-12-17

    申请号:CN202411294433.2

    申请日:2024-09-14

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于事件查询的索引加速模式匹配方法、装置及存储介质。方法包括:分配一个缓冲池,其中每个缓冲用于存储不同类型的事件;当缓冲池达到容量上限时将缓冲中的数据刷新到索引块的集群中,并为每个集群构造区域地图信息;压缩索引块不同类别数据,为压缩后的索引属性构造范围位图,并将构造的索引块序列化到磁盘上,清空缓冲池内容;给定待查询的模式,对每个变量查询,将结果存入映射字典中;根据映射字典从磁盘上获取相关事件,并进行匹配获取最终的查询结果。本方法通过降低索引空间大小减少了读取开销;通过自动确保查询结果有序规避了排序开销,通过避免不必要的事件访问减少了磁盘访问次数,显著降低了模式匹配的查询延迟。

    面向深度学习的GPU资源管理与智能化调度方法

    公开(公告)号:CN112416585B

    公开(公告)日:2024-03-15

    申请号:CN202011310749.8

    申请日:2020-11-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。

    规则驱动和数据驱动相结合的跨平台SQL查询优化方法

    公开(公告)号:CN111444220B

    公开(公告)日:2023-09-01

    申请号:CN202010387095.2

    申请日:2020-05-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种规则驱动和数据驱动相结合的跨平台SQL查询优化方法,包括以下步骤:第一步,将跨平台SQL语句解析成系统内部的逻辑查询计划;第二步,优化器调度模块依据逻辑查询计划的特点调度最适合的优化器进行查询优化;第三步,规则驱动的优化器依据规则进行计划搜索,并依据代价模型和基数估算进行执行计划的选择,得到最佳物理执行计划,且将优化结果导入样本采集模块;第四步,样本采集模块导入的样本经过数据适配模块转化为训练样本,数据驱动的优化器利用训练样本进行强化学习模型训练,将查询输入训练好的模型得到最佳物理执行计划。本发明解决了现有跨平台SQL查询优化方法可拓展性差、灵活性低、优化效果差等问题。

    一种基于强化学习的自动化机器学习方法

    公开(公告)号:CN110110858B

    公开(公告)日:2023-03-28

    申请号:CN201910359211.7

    申请日:2019-04-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于强化学习的自动化机器学习方法,包括以下步骤:使用统一的API接口,屏蔽不同的机器学习算法库之间的异构性,以Python作为编程语言,在Python语言中调用不同机器学习算法库中的算法;将自动化机器学习问题建模为强化学习问题,对候选机器学习算法进行状态空间划分,确定状态间的转移关系,并采用Q‑Learning算法完成搜索机器学习流水线的过程;对数据集进行元特征提取,搜索最相似数据集,并利用所述最相似数据集上的运行信息来加速自动化机器学习的收敛过程。本发明解决了现有的自动化机器学习系统收敛速度慢、可扩展性差以及最终预测性能达不到预期的问题。

    一种基于优先状态迁移的流处理作业扩缩容调度方法

    公开(公告)号:CN115168006A

    公开(公告)日:2022-10-11

    申请号:CN202210846093.4

    申请日:2022-07-04

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于优先状态迁移的流处理作业扩缩容调度方法。首先,在准备阶段,本发明进行初始化工作;其次,在分配阶段,本发明为伸缩操作分配必要资源;然后,在迁移准备阶段,上游算子更新数据分发策略;之后,在迁移阶段,分发明将待迁移状态拆分为若干个“微批”进行迁移,被扩缩容算子进行实例间的状态迁移;最后,在基于消息队列的状态传输完成后,清理阶段负责销毁实例、回收系统资源等。本发明可以保证流处理作业在不中断流处理任务的同时进行系统伸缩,并且保证流处理任务的全局状态的一致性;可以尽量提高状态数据迁移的效率,以最小化状态迁移所带来的算子性能下降;可以避免在非伸缩阶段影响系统性能。

    一种融合系统语义的大数据系统参数自动优化方法

    公开(公告)号:CN113204539A

    公开(公告)日:2021-08-03

    申请号:CN202110516717.1

    申请日:2021-05-12

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合系统语义的大数据系统参数自动优化方法,包括如下步骤:对系统运行作业和数据集进行特征提取;学习历史作业和数据集的大数据系统参数调优日志,形成参数预测模型;根据作业和数据集特征,预测较优的参数配置;从预测参数配置(较优)开始,配置系统参数并执行作业;在作业执行过程或执行结束后进行多维度性能分析;根据分析结果进行遗传搜索,得到更优参数;根据系统语义判断参数配置的合理性,实现参数搜索过程中的剪枝优化。本发明在多种大数据应用场景下均实现了大数据系统参数自动优化,提高大数据计算作业性能,解决现有技术不能同时兼顾参数推荐精准度和参数搜索效率的问题。

    一种通用主题嵌入模型联合训练方法

    公开(公告)号:CN108549718A

    公开(公告)日:2018-09-18

    申请号:CN201810368425.6

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。

    基于Spark的大规模短语翻译模型的训练方法

    公开(公告)号:CN106055543A

    公开(公告)日:2016-10-26

    申请号:CN201610346396.4

    申请日:2016-05-23

    Applicant: 南京大学

    CPC classification number: G06F17/289 G06F17/30194 G06K9/6256

    Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。

    基于Spark的分布式大规模矩阵乘法的矩阵计算方法

    公开(公告)号:CN105426344A

    公开(公告)日:2016-03-23

    申请号:CN201510758182.3

    申请日:2015-11-09

    Applicant: 南京大学

    Inventor: 黄宜华 顾荣 唐云

    CPC classification number: G06F17/16

    Abstract: 本发明公开了一种基于Spark的分布式大规模矩阵乘法的矩阵计算方法,包括以下步骤:采用了一种基于分布式计算执行引擎Spark和单机线性代数库BLAS的系统框架;在该分布式系统中,定义与封装矩阵的相关运算接口,从分布式文件系统中读取矩阵文件,针对分布式计算环境的资源量以及待处理矩阵的规模,选择合适的方案执行分布式乘法:若两个矩阵规模都很小,汇集到本地进行单机乘法;若其中一个矩阵规模较小,则广播该矩阵执行乘法;若两个矩阵规模均很大,采用基于分块的分布式矩阵乘法。针对后两种情况,本发明分别提出了两种高效的解决方案,解决了现有的大数据处理平台对分布式矩阵运算的性能低,扩展性不好的问题。

    一种面向服务器无感知的数据传输成本优化方法

    公开(公告)号:CN114996228B

    公开(公告)日:2025-01-03

    申请号:CN202210617619.1

    申请日:2022-06-01

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向服务器无感知(Serverless)的数据传输成本优化方法,包括如下步骤:测试分析服务器无感知环境的带宽、云函数的计算能力以及计费模式;建立传输时间与传输成本预测模型;用户提交传输任务,在传输任务中指定传输的地址以及执行的时间约束;生成采样任务对新文件进行特征采样,然后利用压缩性能预测模型预测文件的压缩率信息;系统根据任务描述选择传输成本最低且满足时间约束的传输参数;系统根据任务描述以及传输参数,利用服务器无感知计算资源进行实际传输;系统收集执行结果,并更新传输时间预测模型以及压缩性能预测模型。本发明能够保障传输任务在规定时间内完成的前提下,以最低的成本完成传输任务。

Patent Agency Ranking