-
公开(公告)号:CN119250156B
公开(公告)日:2025-03-21
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN119250156A
公开(公告)日:2025-01-03
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN117217287A
公开(公告)日:2023-12-12
申请号:CN202311000674.7
申请日:2023-08-09
Applicant: 中国科学院自动化研究所 , 中国人民解放军军事科学院国防科技创新研究院
Abstract: 本发明提供一种面向分层强化学习的多元子策略生成模型的训练方法,方法包括:确定初始分层强化学习模型;基于所述初始分层强化学习模型选择进行强化学习时的各子策略;基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型。本发明提供的方法,通过在具有固定数量子策略的初始分层强化学习模型中加入基于瓦式距离正则项的方法,在不改变模型原有超参数的前提下,增加多元子策略生成模型学习到的子策略的多样性,进而提升多元子策略生成模型在离散和连续动作环境下的性能表现和样本效率。
-
-