用于生成对话策略学习用高质量模拟经验的方法

    公开(公告)号:CN112989017B

    公开(公告)日:2021-08-10

    申请号:CN202110532471.7

    申请日:2021-05-17

    Abstract: 本发明提供了一种用于生成对话策略学习用高质量模拟经验的方法,属于机器学习技术领域,包括以下步骤:S1.由基于GP的世界模型预测产生模拟经验;S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,有效避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。

    用于对话策略学习的基于GP的深度Dyna-Q方法

    公开(公告)号:CN113392956A

    公开(公告)日:2021-09-14

    申请号:CN202110532520.7

    申请日:2021-05-17

    Abstract: 本发明提供了一种用于对话策略学习的基于GP的深度Dyna‑Q方法,包括以下步骤:S1.由基于GP的世界模型生成模拟经验;S2.由基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.使用质量检测合格的模拟经验对对话策略模型进行训练。本发明的世界模型抛弃了传统DNN模型,而是将世界模型构造成一种高斯过程模型,具有易于分析的优点;并且基于KL散度的质量检测器能够有效控制模拟经验质量,通过引入KL散度来检查经验的分布,不需要额外工作来设计和训练复杂的质量检测器,从而更轻松的评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率。

    用于生成对话策略学习用高质量模拟经验的方法

    公开(公告)号:CN112989017A

    公开(公告)日:2021-06-18

    申请号:CN202110532471.7

    申请日:2021-05-17

    Abstract: 本发明提供了一种用于生成对话策略学习用高质量模拟经验的方法,属于机器学习技术领域,包括以下步骤:S1.由基于GP的世界模型预测产生模拟经验;S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,有效避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。

    利用策略模型辅助训练的GP世界模型及其训练方法

    公开(公告)号:CN114492215A

    公开(公告)日:2022-05-13

    申请号:CN202210404483.6

    申请日:2022-04-18

    Abstract: 本发明公开了一种利用策略模型辅助训练的GP世界模型及其训练方法,该GP世界模型包括用于训练世界模型的损失函数,所述的损失函数包括第一损失函数和第二损失函数,所述的第一损失函数为GP世界模型的自有损失函数,所述第二损失函数为策略模型的损失函数,训练方法包括:S1.世界模型利用损失函数更新模型参数;S2.策略模型利用损失函数更新模型参数,并保存本次训练中每一步的;S3.对取平均值作为后代入,用于下一次世界模型的训练。本发明提出通过策略模型辅助训练GP世界模型方法的训练机制,能够利用策略训练的稳定性来达到调制训练世界模型的目的,从而提高世界模型的训练效果和性能。

    基于GP与PPO实现连续性动作决策的智能决策方法和系统

    公开(公告)号:CN114647986B

    公开(公告)日:2023-08-08

    申请号:CN202210404484.0

    申请日:2022-04-18

    Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。

    用于对话策略学习的基于GP的深度Dyna-Q方法

    公开(公告)号:CN113392956B

    公开(公告)日:2022-02-11

    申请号:CN202110532520.7

    申请日:2021-05-17

    Abstract: 本发明提供了一种用于对话策略学习的基于GP的深度Dyna‑Q方法,包括以下步骤:S1.由基于GP的世界模型生成模拟经验;S2.由基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.使用质量检测合格的模拟经验对对话策略模型进行训练。本发明的世界模型抛弃了传统DNN模型,而是将世界模型构造成一种高斯过程模型,具有易于分析的优点;并且基于KL散度的质量检测器能够有效控制模拟经验质量,通过引入KL散度来检查经验的分布,不需要额外工作来设计和训练复杂的质量检测器,从而更轻松的评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率。

    用于检测对话策略学习中模拟用户经验质量的方法和系统

    公开(公告)号:CN112989016B

    公开(公告)日:2021-08-10

    申请号:CN202110532470.2

    申请日:2021-05-17

    Abstract: 本发明提供了一种用于检测对话策略学习中模拟用户经验质量的方法和系统,其方法包括以下步骤:S1.由世界模型生成模拟经验;S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。本方案引入了基于KL散度的质量检测器,能够更轻松有效地评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率,实现有效控制模拟经验质量的目的。

    基于GP与PPO实现连续性动作决策的智能决策方法和系统

    公开(公告)号:CN114647986A

    公开(公告)日:2022-06-21

    申请号:CN202210404484.0

    申请日:2022-04-18

    Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。

Patent Agency Ranking