张量处理单元上加速稀疏矩阵计算的方法及存储介质

    公开(公告)号:CN119441698B

    公开(公告)日:2025-04-29

    申请号:CN202411531342.6

    申请日:2024-10-30

    Abstract: 本申请公开了一种张量处理单元上加速稀疏矩阵计算的方法及存储介质,所述方法包括:获取第一矩阵,其中第一矩阵包括行索引值或列索引值,第一矩阵为基于输入序列得到的稀疏矩阵;基于行索引值或列索引值,对所述第一矩阵的行和列进行重新排序,得到第二矩阵,以使所述第二矩阵相对于第一矩阵的缓存命中率更高;从GPU的内存中读取第三矩阵,并对所述第二矩阵和第三矩阵进行运算,其中所述第三矩阵是指与所述第二矩阵进行运算的矩阵,所述第三矩阵基于所述输入序列得到。通过本技术,并在tensor core上执行矩阵运算,减少了冗余计算操作,提升了运行过程中的缓存命中率实现了对稀疏矩阵的高效计算与运算资源的优化利用,极大地提升了矩阵计算的整体性能。

    张量处理单元上加速稀疏矩阵计算的方法及存储介质

    公开(公告)号:CN119441698A

    公开(公告)日:2025-02-14

    申请号:CN202411531342.6

    申请日:2024-10-30

    Abstract: 本申请公开了一种张量处理单元上加速稀疏矩阵计算的方法及存储介质,所述方法包括:获取第一矩阵,其中第一矩阵包括行索引值或列索引值,第一矩阵为基于输入序列得到的稀疏矩阵;基于行索引值或列索引值,对所述第一矩阵的行和列进行重新排序,得到第二矩阵,以使所述第二矩阵相对于第一矩阵的缓存命中率更高;从GPU的内存中读取第三矩阵,并对所述第二矩阵和第三矩阵进行运算,其中所述第三矩阵是指与所述第二矩阵进行运算的矩阵,所述第三矩阵基于所述输入序列得到。通过本技术,并在tensor core上执行矩阵运算,减少了冗余计算操作,提升了运行过程中的缓存命中率实现了对稀疏矩阵的高效计算与运算资源的优化利用,极大地提升了矩阵计算的整体性能。

    一种多智能体强化学习训练方法及系统

    公开(公告)号:CN115204415A

    公开(公告)日:2022-10-18

    申请号:CN202210902401.0

    申请日:2022-07-28

    Abstract: 本发明涉及一种多智能体强化学习训练方法及系统,其方法包括:局部策略训练阶段,智能体局部策略利用自身的局部观测信息做出动作;全局策略训练阶段,智能体的全局策略利用局部策略作为与环境交互的动作模块,全局策略以环境全局状态作为输入,给出对全局信息在隐空间中进行编码,同时利用全部智能体的局部观测信息使用神经网络对全局状态进行拟合;局部策略结合各自的局部观测信息以及全局策略的输出在环境中做出符合环境要求的合适动作;局部策略优化阶段,利用前两个阶段得到的全局策略与局部策略以及拟合模型,在现有的局部策略的基础上进行优化,最终得到效果更好的智能体。本发明能提升多智能体强化学习训练的速度和准确性。

    一种用于GPU的强化学习训练框架和方法

    公开(公告)号:CN119578500A

    公开(公告)日:2025-03-07

    申请号:CN202411636379.5

    申请日:2024-11-15

    Abstract: 本申请提供一种在单GPU上实现的强化学习训练框架,包括配置器、执行器、学习器、模型池和缓冲区,执行器和学习器运行在GPU上,模型池和缓冲区设置于GPU的显存,配置器运行在CPU上;配置器确定执行器的运行参数和学习器的运行参数,将执行器的运行参数和学习器的运行参数下发到GPU,执行器从模型池中提取模型,将利用模型得到的经验数据存放到缓冲区中;学习器从缓冲区中提取经验数据,根据经验数据生成的模型,依据学习器的运行参数,将生成的模型放置到模型池中的空位置。本发明中利用多流机制,高效地利用单块GPU进行强化学习训练,通过控制不同训练模块的执行,提高资源利用率,提升GPU上强化学习训练的性能。

    一种基于分布式技术的蛋白质结构推理方法

    公开(公告)号:CN115034393A

    公开(公告)日:2022-09-09

    申请号:CN202210699090.2

    申请日:2022-06-20

    Abstract: 本发明涉及一种基于分布式技术的蛋白质结构推理方法,方法包括:获取蛋白质结构推理所需要的数据集;在AlphaFold2的Data Pipeline模块中,使用分布式计算流对所述数据集进行并行搜索,得到多序列比对MSA表征和模板表征;在AlphaFold2的Evoformer模块和Structure Module模块中,以所述MSA表征和模板表征作为输入,使用并行计算对至少两组不同配置的模型并行迭代学习,生成蛋白质三维结构,在最终生成的模型中选择置信度最高的模型作为输出模型;使用Amber relaxation对所述蛋白质三维结构进行弛豫操作,得到最终稳定的蛋白质三维结构,其中,使用GPU版本的openMM对所述Amber relaxation进行计算。

Patent Agency Ranking