基于层冻结的混合专家模型训练系统

    公开(公告)号:CN119647560A

    公开(公告)日:2025-03-18

    申请号:CN202411692716.2

    申请日:2024-11-25

    Applicant: 厦门大学

    Abstract: 本发明公开了基于层冻结的混合专家模型训练系统,涉及模型训练领域,包括外存、冻结控制器、资源分配控制器和若干计算设备;外存存储用于训练混合专家模型的数据集;冻结控制器根据专家选择路径进行冻结决策,交与计算设备执行;资源分配控制器基于冻结层专家选择路径执行词元分组算法计算专家热度,根据专家热度分配计算资源;计算设备存储混合专家模型,执行模型训练操作,根据层冻结决策执行层冻结任务,将冻结层专家选择路径和专家选择路径分别反馈给资源分配控制器和冻结控制器。本发明通过层冻结技术进行混合专家模型的训练,保持模型精度的同时减小训练成本;基于词源分组算法进行计算资源分配,实现设备负载均衡。

Patent Agency Ranking