基于层次混合专家模型的大模型多偏好对齐方法及装置

    公开(公告)号:CN119862423A

    公开(公告)日:2025-04-22

    申请号:CN202510340570.3

    申请日:2025-03-21

    Abstract: 本发明提供基于层次混合专家模型的大模型多偏好对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取预训练的单目标微调模型;提取模型中每个单目标策略的目标向量,通过任务向量奇异值分解法分解目标向量,生成低秩适配器作为每个单目标的LoRA专家;采用PCB‑merging和Free‑merging融合模型进行处理,获得多目标LoRA专家;生成线性路由层,构造奖励损失函数;采用镜像梯度下降和平滑切比雪夫标量化对损失函数进行优化,获得多目标的路由专家;设计权重路由器;根据多目标LoRA专家、多目标的路由专家和权重路由器,构建层次化的混合专家模型;将获取的用户输入的提示词和偏好向量,输入层次化的混合专家模型中,输出符合用户的偏好。采用本发明可提高推理效率。

Patent Agency Ranking