多任务模型的训练方法及装置
    1.
    发明公开

    公开(公告)号:CN115345296A

    公开(公告)日:2022-11-15

    申请号:CN202210968303.7

    申请日:2022-08-12

    Abstract: 本说明书实施例提供一种多任务模型的训练方法及装置,其中多任务模型包括用于确定用户表征的主干网络,以及用于基于用户表征执行k项用户预测任务的k个头部网络。该方法包括:基于m个用户样本,确定k项用户预测任务针对主干网络的k组原始梯度向量,其中各个用户样本包括用户特征和k个用户标签;将k组原始梯度向量映射至其所在原始空间的子空间,得到k组映射梯度向量;基于k组映射梯度向量在子空间的r个空间维度上的分量分布,确定对应的r个权重,并利用r个权重分别对各个映射梯度向量的r个维度分量进行加权处理,得到k组加权梯度向量;将k组加权梯度向量映射回原始空间,得到k组处理梯度向量,用以更新主干网络的网络参数。

    训练学生模型的方法、行为预测方法和装置

    公开(公告)号:CN116975686A

    公开(公告)日:2023-10-31

    申请号:CN202310907307.9

    申请日:2023-07-21

    Abstract: 本说明书实施例提供了一种训练学生模型的方法、行为预测方法和装置,该方法基于教师模型以及桥模型来训练学生模型,该方法包括:将原始特征数据输入第一嵌入层,得到第一嵌入特征并输入训练好的教师模型、以及桥模型,得到第一和第二预测结果并根据其更新桥模型;将第一嵌入特征输入桥模型所包括的桥特征提取网络、以及学生模型包括的学生特征提取网络,得到第一桥提取向量和学生提取向量,并根据其确定交互蒸馏损失;将原始特征数据输入第二嵌入层,得到第二嵌入特征并输入桥特征提取网络,得到第二桥提取向量;根据第一和第二桥提取向量,确定嵌入蒸馏损失;至少根据交互蒸馏损失和嵌入蒸馏损失,确定综合损失并根据其更新学生模型。

    一种基于特征选择的模型训练方法、装置以及设备

    公开(公告)号:CN115841016A

    公开(公告)日:2023-03-24

    申请号:CN202211275449.X

    申请日:2022-10-14

    Abstract: 本说明书实施例公开了一种基于特征选择的模型训练方法、装置以及设备。通过获取所述M个任务的共享特征Z;针对第k个任务,根据所述共享特征Z确定特征对于任务的权重向量,根据所述共享特征和所述权重向量确定第k个任务的第一预测结果;针对第i个特征,将所述共享特征Z中的第i行替换为预设值,生成修改后的共享特征,根据所述修改后的共享特征确定第k个任务的第二预测结果;根据所述第一预测结果和所述第二预测结果的差异确定第i个特征对于第k个任务的因果效应因子;确定所述因果效应因子和所述权重向量的差异,根据所述差异生成损失值对所述多任务模型进行训练,从而实现在训练过程中为每个任务选择性地学习具有因果关系的特征。

    网络模型的训练方法、推荐方法、系统

    公开(公告)号:CN119538984A

    公开(公告)日:2025-02-28

    申请号:CN202411659120.2

    申请日:2024-11-19

    Abstract: 本说明书提供一种网络模型的训练方法、推荐方法、系统,训练方法包括:获得样本数据集,基于大语言模型获得样本数据集对应的第一预测推荐结果,基于大语言模型和推荐模型获得样本数据集对应的第二预测推荐结果,以最小化第一预测推荐结果与预设第一标签之间的第一损失函数、第二预测推荐结果与预设第二标签之间的第二损失函数为训练目标更新所述预设网络的参数,得到目标网络模型,其中,预设第一标签为基于样本用户的丰富意图确定的。通过采用丰富意图确定大语言模型的预设第一标签,可以训练大语言模型辨别样本用户更深层次的用户意图的能力,从而使得训练得到的目标网络模型能够准确有效地为用户做推荐。

    训练用于自动出价的强化学习系统的方法及装置

    公开(公告)号:CN116611499A

    公开(公告)日:2023-08-18

    申请号:CN202310536954.3

    申请日:2023-05-11

    Abstract: 本说明书实施例披露一种训练用于自动出价的强化学习系统的方法及装置。其中强化学习系统包括环境模型和智能体,环境模型用于预测业务环境的状态分布,业务环境状态包括业务方的预算消耗和已获业务价值,智能体用于根据当前环境状态确定业务方的当前出价参数。所述方法包括:先利用多个历史样本训练环境模型,其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在第一状态下采用所述第一出价参数后业务环境变更为的第二状态;再利用基于环境状态空间和出价参数空间采样构建的多个状态‑出价参数对,以及将其中各个状态‑出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练智能体。

Patent Agency Ranking