训练数据处理方法、装置、电子设备及存储介质

    公开(公告)号:CN119294553A

    公开(公告)日:2025-01-10

    申请号:CN202411307910.4

    申请日:2024-09-19

    Inventor: 刘洪涛 杨青

    Abstract: 本公开提供一种训练数据处理方法、装置、电子设备及存储介质,其中该方法包括:从文本数据集中随机抽取多个文本数据;根据每个数据桶对应的文本长度范围确定该多个文本数据中文本长度最大的文本数据对应的数据桶,多个数据桶具有多种文本容量,并且文本容量越大其对应的最小文本长度越大;按照文本长度从大到小依次向该数据桶内填充多个文本数据中的文本数据,其中,优先向数据桶中填充文本长度小于数据桶的剩余容量的文本数据;在该数据桶填满后,将该数据桶的数据输出为一个训练数据,并返回从文本数据集中随机抽取多个文本数据的步骤,直到文本数据集分桶处理结束。能够兼顾短文本训练效果、长上下文的建模能力以及整体的训练速度。

    一种数据去重方法、装置及电子设备

    公开(公告)号:CN119938655A

    公开(公告)日:2025-05-06

    申请号:CN202411868324.7

    申请日:2024-12-18

    Inventor: 刘洪涛 袁玥 杨青

    Abstract: 本申请提供了一种数据去重方法、装置及电子设备,该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理,得到包含若干条目标样本数据的第一目标去重文本集合,即使在单机内存不足以支持全局数据去重处理的现实限制情况下,快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理,充分提高了内存的利用率,降低了数据去重的数据量,有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此,可有效减少大语言模型训练时无用重复数据的数据量,有助于保障大语言模型的训练效果以及训练效率。

    模型训练方法、行为预测方法、装置及电子设备

    公开(公告)号:CN116011554A

    公开(公告)日:2023-04-25

    申请号:CN202310101156.8

    申请日:2023-01-28

    Inventor: 刘洪涛 杨青

    Abstract: 本发明公开了一种模型训练方法、行为预测方法、装置及电子设备。其中,模型训练方法包括:获取多个用户的历史行为数据,历史行为数据中包括历史行为操作数据和标签标识,标签标识用于指示用户是否具有标签信息,标签信息用于指示用户是否发生预设行为;对历史行为数据进行掩码处理,获得掩码后的历史行为数据;基于掩码后的历史行为数据对模型进行训练。本发明能够提高模型的训练质量,以及通过训练完成后的模型能够获得较为精准的用户表征。

Patent Agency Ranking