资源受限的大模型异构训练方法、计算机设备和存储介质

    公开(公告)号:CN119597469A

    公开(公告)日:2025-03-11

    申请号:CN202411656715.2

    申请日:2024-11-19

    Abstract: 本申请涉及一种资源受限的大模型异构训练方法、计算机设备和存储介质,方法包括:在图像处理器进行模型前向传播时生成的激活量中,根据与各激活量对应的计算量之间的依赖关系和/或各激活量的计算量与存储量确定第一激活量,并将第一激活量异步传输至中央处理器;在模型反向传播过程中从中央处理器加载第一激活量至图像处理器;获取图像处理器基于第一激活量计算得到模型参数的梯度,将梯度异步传输至中央处理器;确定中央处理器中基于梯度更新得到的优化器,并获取更新后的优化器调整得到的模型参数,将模型参数异步传输至图像处理器。采用本方法能够解决显存资源受限的大模型训练困难且显卡计算效率低的问题。

    多智能体代理的数据库内的机器学习特征生成方法

    公开(公告)号:CN119151016A

    公开(公告)日:2024-12-17

    申请号:CN202411650247.8

    申请日:2024-11-19

    Abstract: 本申请涉及一种多智能体代理的数据库内的机器学习特征生成方法,包括:根据历史特征集合在数据库内的机器学习模型中的性能指标,确定第一特征集合和第一特征集合的特征描述;根据机器学习任务和历史特征集合,得到第一特征集合对应的特征提示;获取数据库内的大语言模型根据第一特征集合、特征描述和特征提示生成的新特征,并结合第一特征集合和新特征得到第二特征集合;根据历史特征集合和第二特征集合在机器学习模型中的性能指标,确定第三特征集合;分解第三特征集合,直至分解得到的特征集合与第三特征集合匹配,根据分解结果得到执行机器学习任务所需的第四特征集合。采用本方法能够解决数据库内执行机器学习任务困难且准确性低的问题。

    面向代理模型的推理查询重优化方法、装置、设备和介质

    公开(公告)号:CN119149588A

    公开(公告)日:2024-12-17

    申请号:CN202411639951.3

    申请日:2024-11-18

    Abstract: 本申请涉及一种面向代理模型的推理查询重优化方法、装置、设备和介质,通过基于第一查询计划,将当前批次数据输入至推理模型进行处理,得到所需查询的数据;其中,推理模型包括代理模型和机器学习模型;在执行第一查询计划的过程中,监测统计信息;其中,统计信息包括系统资源或者查询计划选择率;在监测到统计信息的变化超出阈值的情况下,基于第二查询计划,将历史数据输入至代理模型进行重训练;其中,历史数据包括在当前批次数据之前输入至推理模型处理后携带上标签的数据;减小了重优化推理查询方法产生的计算开销,提升了重优化效率。

    一种自适应调整权重的数据库页面替换方法

    公开(公告)号:CN118939670A

    公开(公告)日:2024-11-12

    申请号:CN202411005185.5

    申请日:2024-07-25

    Applicant: 浙江大学

    Abstract: 本发明公开了一种自适应调整权重的数据库页面替换方法,本方法使用页面值来表示页面的冷热程度,在替换的过程中根据命中率的变化来选择不同的权重,并在读取时将该权重添加到页面值中,在缓冲区没有空闲页槽时,通过循环遍历所有页槽来找到符合条件的页槽并将该页槽下的页面替换成要读取的页面,从而实现页面替换过程。本发明使用页面值来表示页面的冷热程度,减少了内存空间的消耗;不需要数据结构并发锁,提升了数据库的并发能力,增加了数据库的吞吐量;使用自适应变化的权重来使权重符合当前的负载,从而提高缓冲区的命中率,提高数据库的吞吐量。

    一种基于DataCube模型的数据库逻辑缺陷测试方法

    公开(公告)号:CN118467369A

    公开(公告)日:2024-08-09

    申请号:CN202410630222.5

    申请日:2024-05-21

    Applicant: 浙江大学

    Inventor: 杨诗杰 唐秀 伍赛

    Abstract: 本发明公开了一种基于DataCube模型的数据库逻辑缺陷测试方法。本发明首先随机生成测试表,包括维度列和指标列,构建具有丰富边界和极端值的测试数据。接着,运用DataCube模型构建多维数据立方体,模拟实际运算中的边界情况,每个数据正方体包含聚合值与原始数据并通过坐标定位。在生成Query阶段,封装原始DataCube与SQL查询,根据GROUP BY条件对DataCube进行降维聚合,形成与查询匹配的真值。最后,将真值与DBMS执行相同查询的实际结果对比,标识出DBMS在GROUP BY操作中的逻辑缺陷。本发明有效填补了现有技术在分组聚合查询测试的空白,显著提升了测试效率和准确性,有力保障了数据库系统的稳定性和可靠性。

    一种基于金字塔层级网络的嵌套实体检测方法

    公开(公告)号:CN111581957B

    公开(公告)日:2022-04-12

    申请号:CN202010371816.0

    申请日:2020-05-06

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于金字塔层级网络的嵌套实体检测方法,属于自然语言处理技术领域。该嵌套实体检测方法包括:(一)对单词进行编码获得词向量,将词向量作为仅包含单个单词的文本区域的表示输入第一个解码层;(二)当前解码层对输入的每个文本区域的表示进行命名实体识别,将相邻的两个文本区域的表示被合并为一个新的文本区域的表示,输入到下一解码层,重复该步骤直到次数达到预设的层数或输入文本的长度;(三)对应于上述金字塔层级网络,使用合适的优化方法进行训练;(四)将待检测文本输入训练好的金字塔层级网络,获得命名实体识别结果。本发明的基于金字塔层级网络的嵌套实体检测方法可以解决命名实体识别中存在实体嵌套的问题。

    一种自动发现审计规则和异常数据的方法

    公开(公告)号:CN111475500B

    公开(公告)日:2022-04-12

    申请号:CN202010279614.3

    申请日:2020-04-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种自动发现审计规则和异常数据的方法。该方法先将审计的数据集按照属性类型分成分类属性和数值属性,用户再分别给定分类属性的最小支持率和数值属性的偏移率,然后在分类属性中选出支持率高于最小支持率的候选分类属性和属性值;再根据属性类型生成候选属性集,从而获取审计规则;最后根据获取的审计规则,依次对收集的审计数据集进行筛选,选出符合审计规则中满足条件约束的,而派生属性的属性值不在正常值范围内的数据,即为异常数据。该自动发现审计规则和异常数据方法能够有效地提高审计效率,降低审计成本。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607A

    公开(公告)日:2021-11-16

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    一种时变图数据的快速存储查询方法

    公开(公告)号:CN109145121B

    公开(公告)日:2021-10-29

    申请号:CN201810778978.9

    申请日:2018-07-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种时变图的快速存储查询方法。将时变图数据分为结构和属性数据,将结构数据变成带关系节点的网络图模型;使用日志结构存储时变图的属性数据,建立日志属性模型;根据时变图的结构数据存储模型和属性数据存储模型建立时变图查询模型,对输入数据分类执行到网络图模型和日志属性模型对应的不同物理存储中并执行查询并行化,并且构建图数据库和文档数据库的底层数据存储和特殊的上层查询封装进行查询。本发明建立了通用的上层存储模型,并设计了时变图数据的查询,发明相比传统方法在实体状态和历史属性值查询上有显著的查询效率,在历史属性值的存储空间上也有显著的节省。

Patent Agency Ranking