基于分布式内存管理的大模型训练故障恢复方法和装置

    公开(公告)号:CN119473732A

    公开(公告)日:2025-02-18

    申请号:CN202510067262.8

    申请日:2025-01-16

    Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。

    基于光电融合的一体化多参量传感器及其制备方法

    公开(公告)号:CN116295656B

    公开(公告)日:2023-10-31

    申请号:CN202310512850.9

    申请日:2023-05-09

    Abstract: 本发明公开了一种基于光电融合的一体化压力/温度/接近多参量传感器及其制备方法。包括基于光学机制的柔性光波导和卷绕在其上的基于电学机制的柔性叉指电极薄膜,其中柔性光波导由两根插入到硅胶管中且相隔距离的光纤构成;该传感器借助光电融合的多维度响应信号实现压力—温度—接近三参量的自解耦无串扰感知,压力通过光波导损耗以光强的形式测量,温度通过电极的热阻效应以电阻的形式测量,物体接近通过叉指电极边缘电场以电容的形式测量。本发明的一体化多参量传感器可同时监测压力、温度和接近并且没有信号串扰,结构紧凑、制备简单、无需复杂的系统集成和解耦算法,具有广阔的应用前景。

Patent Agency Ranking