-
公开(公告)号:CN117789005A
公开(公告)日:2024-03-29
申请号:CN202410056168.8
申请日:2024-01-15
Applicant: 北京邮电大学
IPC: G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种多任务模型训练方法及装置、电子设备、可读存储介质,属于多任务决策领域,该方法包括:根据训练任务对训练数据集进行划分,得到多个子数据集;确定每个子数据集对应的任务标签,将每个子数据集对应的任务标签转换为每个子数据集对应的任务掩码;基于每个子数据集对应的任务掩码对多任务模型中的权重参数进行筛选,得到每个子数据集对应的第一权重参数;将多个子数据集依次输入至多任务模型中对多任务模型进行训练。本公开提供的多任务模型训练方法及装置、电子设备、可读存储介质能够根据任务掩码找到多个任务之间的共同特征,从而能够高效利用权重参数,同时使模型的计算开销大的问题得到缓解。
-
公开(公告)号:CN119701377A
公开(公告)日:2025-03-28
申请号:CN202411939576.4
申请日:2024-12-26
Applicant: 北京邮电大学
IPC: A63F13/822 , A63B24/00 , G06N3/092 , A63F13/77
Abstract: 本公开提供了一种智能体训练方法及装置、电子设备、存储介质,属于智能体训练技术领域,该方法包括:确定主智能体的第一策略模型和陪练智能体的第二策略模型,第一策略模型为主智能体历史版本池中的模型,第二策略模型为陪练智能体历史版本池中的模型;基于第一策略模型和第二策略模型的交互数据对第一策略模型进行更新得到第三策略模型,基于第一策略模型和第二策略模型的交互数据对第二策略模型进行更新得到第四策略模型;将第三策略模型加入主智能体历史版本池中,将第四策略模型加入到陪练智能体历史版本池中。本公开提供的智能体训练方法及装置、电子设备、存储介质能够满足在非对称任务中策略多变、环境复杂的实际需求。
-