-
公开(公告)号:CN115648204B
公开(公告)日:2024-08-27
申请号:CN202211172621.9
申请日:2022-09-26
Applicant: 吉林大学
Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。
-
公开(公告)号:CN117235531A
公开(公告)日:2023-12-15
申请号:CN202311470747.9
申请日:2023-11-07
Applicant: 吉林大学
IPC: G06F18/214 , G06N20/00 , G06F17/18 , G06F18/211
Abstract: 本申请公开了一种智能体训练方法、装置、存储介质及电子设备,其中方法包括:获取智能体在当前预设时长接收到的更新优势信号,基于更新优势信号更新智能体的动作网络,获取基于智能体执行动作网络中的动作数据所产生的环境业务数据,基于动作业务分布评估获取动作网络对应的动作业务数据,基于环境业务数据和动作业务数据,获取动作网络对应的混合业务数据,基于混合业务数据对智能体对应的第一状态网络进行状态更新得到第二状态网络,基于第二状态网络确定目标优势信号。采用本申请,通过使用有限的样本对智能体的各动作数据进行考虑,进而在减少计算量的同时对获取的优势信号更加准确,达到降低样本的采集复杂度,提高智能体的训练效率。
-
公开(公告)号:CN115648204A
公开(公告)日:2023-01-31
申请号:CN202211172621.9
申请日:2022-09-26
Applicant: 吉林大学
Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。
-
-