-
公开(公告)号:CN119761418A
公开(公告)日:2025-04-04
申请号:CN202411983249.9
申请日:2024-12-31
Applicant: 河南科技大学
IPC: G06N3/0455 , G06N3/042 , G06N3/08 , G06N5/04 , G06N5/022
Abstract: 本发明提供一种大语言模型优化方法,该优化方法为:获取原始语料库并进行预处理;构建基于图神经网络的深度学习模型;根据预处理后的语料库对模型进行训练,得到训练后的模型;模型以混合并行模式被拆分到分布式训练系统中进行训练,混合并行模式包括数据并行模式、流水线并行模式和张量并行模式;所述分布式训练系统包括至少一个计算节点,至少一个计算节点中的每个计算节点包括至少一个主机和至少一个设备;对模型进行性能预测;根据预测结果进行模型优化。从影响模型时空消耗的三个方面,即数据、模型架构、模型运行机制入手,系统性地从数据筛选、架构剪裁和模型优化三个方面进行优化,旨在实现大语言模型在时空有限情况下的有效运行。