-
公开(公告)号:CN118036612A
公开(公告)日:2024-05-14
申请号:CN202410116759.X
申请日:2024-01-26
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F40/30 , G06F18/214 , G06N3/08
Abstract: 本公开关于一种预训练语料处理方法、装置、电子设备及存储介质,该方法包括:根据预训练语料中的语义单元,将预训练语料切分为多个初始语料块,每个初始语料块为语义单元或者纯文本;在所述初始语料块为纯文本时,根据换行符,将初始语料块切分为多个第一语料子块;在初始语料块为语义单元时,根据初始语料块的标记化后长度,将初始语料块切分为一个或多个第二语料子块;根据各语料子块在预训练语料中的顺序,将至少一个语料子块组合为目标语料块,目标语料块的标记化后长度小于或等于所述序列长度,语料子块包括所述第一语料子块或所述第二语料子块。本公开实施例可以将整个目标语料块作为一个样本,保证了样本的语义信息的完整性。