-
公开(公告)号:CN119514633A
公开(公告)日:2025-02-25
申请号:CN202411485748.5
申请日:2024-10-23
Applicant: 北京理工大学东南信息技术研究院 , 北京理工大学
IPC: G06N3/084 , G06F40/284 , G06N3/0464 , G06F40/216 , G06F40/194 , G06F21/62 , G06N3/048 , G06N3/047
Abstract: 本申请提供一种轻量级中英双语大语言模型的训练方法,方法包括:步骤1,进行中英文训练数据收集与预处理;步骤2,进行预训练;步骤21,进行文本分词;步骤22,文本编码:步骤23,旋转位置编码:在输入层采用在注意力层的旋转位置编码;步骤24,设定注意力机制、残差网络、标准化层和全连接网络输出层与自回归训练方式;步骤25,选择预训练数据;步骤26,进行预训练;每个批次使用中英文数据交叉的方式进行输入,即交叉从英文数据和中文数据中各采样一条,直到达到训练批次大小后输入到模型中进行训练。步骤3,指令微调训练。本申请极高的灵活性和适应性。