语义大模型增量预训练方法及相关装置

    公开(公告)号:CN119106664A

    公开(公告)日:2024-12-10

    申请号:CN202411108350.X

    申请日:2024-08-13

    Abstract: 本发明属于人工智能领域,公开了一种语义大模型增量预训练方法及相关装置,包括:获取专业领域增量训练样本、语义大模型和语义大模型预训练样本;将语义大模型作为生成器和判别器构建对抗生成网络,并基于专业领域增量训练样本和语义大模型预训练样本训练对抗生成网络;获取训练后的对抗生成网络中的生成器,得到专业领域增量预训练大模型。可有效避免语义大模型在拟合专业领域增量训练样本时发生灾难性遗忘的风险,也有效避免了模型崩溃问题。可以在专业领域的数据基础上使用较小的算力、样本和时间成本完成增量训练,可借助语义大模型本身的理解能力,更好地学习和适应专业领域的专业术语、知识结构和业务逻辑,提高在专业领域的应用效果。

Patent Agency Ranking