-
公开(公告)号:CN119647551A
公开(公告)日:2025-03-18
申请号:CN202411483690.0
申请日:2024-10-23
Applicant: 吉林大学
Abstract: 本申请提供了一种模型优化方法、装置、电子设备和计算机可读存储介质,涉及强化学习技术领域,本申请提供的模型优化方法通过从智能体与环境以往交互所产生的历史策略经验中筛选出高质量的历史策略经验,然后利用高质量的历史策略经验和由总变差距离构建得到奖励函数优化智能体所采用的策略,不仅能够在强化学习中提高历史经验样本的利用率,并且还能够减少强化学习中智能体与环境交互所需的成本和时间,并且引入的奖励函数可以将策略差异作为负奖励,从而限制策略更新的幅度,有利于确保策略的稳定性。