Patent search ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)") AND inv:"李卓" Page 1

1.

发明公开
基于层次混合专家模型的大模型多偏好对齐方法及装置审中-实审

公开(公告)号：CN119862423A

公开(公告)日：2025-04-22

申请号：CN202510340570.3

申请日：2025-03-21

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 李晶 , 李卓 , 李修成 , 张民

IPC: G06F18/214 , G06F18/25

Abstract: 本发明提供基于层次混合专家模型的大模型多偏好对齐方法及装置，涉及自然语言处理技术领域。该方法包括：获取预训练的单目标微调模型；提取模型中每个单目标策略的目标向量，通过任务向量奇异值分解法分解目标向量，生成低秩适配器作为每个单目标的LoRA专家；采用PCB‑merging和Free‑merging融合模型进行处理，获得多目标LoRA专家；生成线性路由层，构造奖励损失函数；采用镜像梯度下降和平滑切比雪夫标量化对损失函数进行优化，获得多目标的路由专家；设计权重路由器；根据多目标LoRA专家、多目标的路由专家和权重路由器，构建层次化的混合专家模型；将获取的用户输入的提示词和偏好向量，输入层次化的混合专家模型中，输出符合用户的偏好。采用本发明可提高推理效率。

Patent Agency Ranking