-
公开(公告)号:CN112561038A
公开(公告)日:2021-03-26
申请号:CN202011522568.1
申请日:2020-12-21
Applicant: 之江实验室
IPC: G06N3/04 , G06N3/063 , G06N3/08 , G06F40/211
Abstract: 本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序,利用有序的数据样本生成高质量的批数据,从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量,同时最大程度降低无效的占位文字数量,降低无效数据对GPU计算资源的占用,从而大大提高训练效率,降低训练时间。