智能决策模型的训练方法、装置、设备以及存储介质

    公开(公告)号:CN115648204B

    公开(公告)日:2024-08-27

    申请号:CN202211172621.9

    申请日:2022-09-26

    Applicant: 吉林大学

    Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。

    一种空间对齐与选择性权重激活的持续离线强化学习方法

    公开(公告)号:CN119761454A

    公开(公告)日:2025-04-04

    申请号:CN202510248451.5

    申请日:2025-03-04

    Applicant: 吉林大学

    Abstract: 本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法,包括:针对持续学习任务序列中的每一个任务,使用该任务对应的数据集,利用量化空间对齐方法将状态空间和动作空间对齐,以得到相同空间下的状态序列和动作序列;获取单时间步奖励序列,并利用奖励函数计算出累积折扣奖励和序列;基于该任务的状态序列,将累积折扣奖励和序列作为扩散模型的条件信息,利用被激活的扩散模型生成给定状态序列,再利用逆动力学模型生成给定动作序列;将各任务累积的折扣奖励和的最大化作为目标,进行持续强化学习,以更新各任务对应的扩散模型参数,和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行,并有效缓解了灾难性遗忘。

    一种智能体训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117235531A

    公开(公告)日:2023-12-15

    申请号:CN202311470747.9

    申请日:2023-11-07

    Applicant: 吉林大学

    Abstract: 本申请公开了一种智能体训练方法、装置、存储介质及电子设备,其中方法包括:获取智能体在当前预设时长接收到的更新优势信号,基于更新优势信号更新智能体的动作网络,获取基于智能体执行动作网络中的动作数据所产生的环境业务数据,基于动作业务分布评估获取动作网络对应的动作业务数据,基于环境业务数据和动作业务数据,获取动作网络对应的混合业务数据,基于混合业务数据对智能体对应的第一状态网络进行状态更新得到第二状态网络,基于第二状态网络确定目标优势信号。采用本申请,通过使用有限的样本对智能体的各动作数据进行考虑,进而在减少计算量的同时对获取的优势信号更加准确,达到降低样本的采集复杂度,提高智能体的训练效率。

    智能决策模型的训练方法、装置、设备以及存储介质

    公开(公告)号:CN115648204A

    公开(公告)日:2023-01-31

    申请号:CN202211172621.9

    申请日:2022-09-26

    Applicant: 吉林大学

    Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。

Patent Agency Ranking