大语言模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN118211065A

    公开(公告)日:2024-06-18

    申请号:CN202410275666.1

    申请日:2024-03-11

    Inventor: 叶忻 林梓佳

    Abstract: 本公开关于一种大语言模型的训练方法、装置、电子设备及存储介质,该方法包括:在对大语言模型训练的当前阶段,通过前一阶段训练后的代理模型对当前训练数据集中的训练文本进行分类,得到第一分类结果;根据第一分类结果,对前一阶段训练后的大语言模型进行当前阶段的训练;根据第一分类结果,对前一阶段的代理模型进行训练,得到当前阶段的代理模型;通过代理模型对训练文本进行分类,得到第二分类结果;对第二分类结果进行校对,得到校对结果;根据校对结果对代理模型进行重新训练,得到当前阶段重新训练后的代理模型;将下一阶段作为当前阶段,并迭代执行上述各步骤,直至所述大语言模型训练完成。本公开可以提高训练效率,减少计算资源消耗。

    问题信息的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN119539086A

    公开(公告)日:2025-02-28

    申请号:CN202411686720.8

    申请日:2024-11-22

    Inventor: 叶忻

    Abstract: 本公开提供了一种问题信息的处理方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:获取预训练后的大语言模型、属于任一业务场景的问题信息以及与问题信息关联的动作集合;创建目标解码树;对于目标解码树中已有的任一个目标节点,采用大语言模型,分别按照动作集合中的至少一个动作,对目标节点对应的信息进行处理,得到至少一个答案信息,并创建目标节点的至少一个子节点,直至目标解码树满足问题解决条件;从目标解码树中多个叶子节点对应的答案信息中,确定大语言模型针对问题信息的目标答案信息。该方法无需针对问题信息所属的业务场景对预训练后的大语言模型训练,即可解决问题信息,节省了训练所需的人力成本和训练资源。

Patent Agency Ranking