预训练语料处理方法、装置、电子设备及存储介质

    公开(公告)号:CN118036612A

    公开(公告)日:2024-05-14

    申请号:CN202410116759.X

    申请日:2024-01-26

    Abstract: 本公开关于一种预训练语料处理方法、装置、电子设备及存储介质,该方法包括:根据预训练语料中的语义单元,将预训练语料切分为多个初始语料块,每个初始语料块为语义单元或者纯文本;在所述初始语料块为纯文本时,根据换行符,将初始语料块切分为多个第一语料子块;在初始语料块为语义单元时,根据初始语料块的标记化后长度,将初始语料块切分为一个或多个第二语料子块;根据各语料子块在预训练语料中的顺序,将至少一个语料子块组合为目标语料块,目标语料块的标记化后长度小于或等于所述序列长度,语料子块包括所述第一语料子块或所述第二语料子块。本公开实施例可以将整个目标语料块作为一个样本,保证了样本的语义信息的完整性。

Patent Agency Ranking