一种联合内在动机探索的多智能体内在动机框架

    公开(公告)号:CN118780314B

    公开(公告)日:2025-04-04

    申请号:CN202410973982.6

    申请日:2024-07-19

    Abstract: 本发明公开了一种联合内在动机探索的多智能体内在动机框架,提出了联合内在动机探索算法JIME;JIME包括两个组件:一个用于压缩多智能体联合观察的编码器和一个用于预测智能体联合动作的解码器;首先将环境状态#imgabs0#输入到编码器,得到#imgabs1#从#imgabs2#生成#imgabs3#然后将#imgabs4#输入到解码器,得到预测的动作#imgabs5#最后计算损失函数,通过反向传播算法更新编码器和解码器的参数,最小化总损失,得到最终的JIME。本发明提供了一种新的内在动机探索方法,通过整合两种奖励类型来增强QMIX算法,能够解决给定任务的智能代理学习策略的联合内在动机探索的多智能体内在动机框架。

    基于强化学习的机器人回报函数的自适应方法

    公开(公告)号:CN115793450A

    公开(公告)日:2023-03-14

    申请号:CN202211459853.2

    申请日:2022-11-16

    Abstract: 本发明公开了基于强化学习的机器人回报函数的自适应方法,可以根据机器人与环境的交互轨迹学习到回报值,从而指导强化学习算法优化控制策略,避免了回报模型的人工设计干预,能够通过自适应的回报模型提高强化学习在不同场景下的行走控制更加高效。

    一种基于保守模型强化学习的机器人控制方法

    公开(公告)号:CN119260713A

    公开(公告)日:2025-01-07

    申请号:CN202411416100.2

    申请日:2024-10-11

    Abstract: 该发明公开了一种基于保守模型强化学习的机器人控制方法,涉及机器学习技术领域。本发明基于保守模型强化学习的机器人控制方法,通过在每个模型学习步骤中,从集成概率模型中随机选择具有保守近似的估计模型。它以概率估计模型的集合形式出现,但包含了惩罚高估或过度乐观预测的机制。这保证了基于模型强化学习算法在保守性和泛化性之间的平衡,进而解决基于模型强化学习中模拟环境产生多步模型模拟样本严重偏离真实环境数据的问题。

    基于模型的高样本率深度强化学习的无人设备控制方法

    公开(公告)号:CN115293334B

    公开(公告)日:2024-09-27

    申请号:CN202210963402.6

    申请日:2022-08-11

    Abstract: 本发明公开了基于模型的高样本率深度强化学习的无人设备控制方法,包括:获取轨迹数据,并将轨迹数据存入环境缓冲池中;对环境状态转移模型进行更新;进行多步交互轨迹预测生成预测数据,并将预测数据存入模型缓冲池;对Actor‑Critic策略模型进行更新;持续迭代更新环境状态转移模型和Actor‑Critic策略模型直至当前策略性能达到预期要求。本发明采用基于模型的深度强化学习的方法,构建一个环境状态转移模型来模拟无人设备与外界环境的交互,从而急剧减少无人设备与真实环境的交互次数,并且由环境状态转移模型产生的数据能够对无人设备行进控制策略进行有效的优化,使得对无人设备的控制变得高效。

    基于深度强化学习的单音轨MIDI音乐生成方法

    公开(公告)号:CN114842819A

    公开(公告)日:2022-08-02

    申请号:CN202210511149.0

    申请日:2022-05-11

    Abstract: 本发明公开了一种基于深度强化学习的单音轨MIDI音乐生成方法,包括:S1、基于LSTM网络构建节奏生成网络,并基于强化学习Actor‑Critic算法构建音符生成网络;S2、获取原始MIDI音乐数据,并提取节奏数据和音符数据转换为网络训练数据;S3、采用步骤S2中转换后的网络训练数据训练节奏生成网络和音符生成网络;S4、采用训练后的节奏生成网络生成节奏数据,并采用训练后的音符生成网络生成音符数据;S5、将生成的节奏和音符数据组合并转换为完整的单音轨MIDI音乐作品。本发明应用时能使生成音乐的节奏与音符之间搭配更为合理,进而能提升生成音乐的和谐性。

    一种策略正则化提升探索效率的机器人控制方法

    公开(公告)号:CN118596159B

    公开(公告)日:2024-11-08

    申请号:CN202411071231.1

    申请日:2024-08-06

    Abstract: 本发明公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。

    一种联合内在动机探索的多智能体内在动机框架

    公开(公告)号:CN118780314A

    公开(公告)日:2024-10-15

    申请号:CN202410973982.6

    申请日:2024-07-19

    Abstract: 本发明公开了一种联合内在动机探索的多智能体内在动机框架,提出了联合内在动机探索算法JIME;JIME包括两个组件:一个用于压缩多智能体联合观察的编码器和一个用于预测智能体联合动作的解码器;首先将环境状态#imgabs0#输入到编码器,得到#imgabs1#从#imgabs2#生成#imgabs3#然后将#imgabs4#输入到解码器,得到预测的动作#imgabs5#最后计算损失函数,通过反向传播算法更新编码器和解码器的参数,最小化总损失,得到最终的JIME。本发明提供了一种新的内在动机探索方法,通过整合两种奖励类型来增强QMIX算法,能够解决给定任务的智能代理学习策略的联合内在动机探索的多智能体内在动机框架。

    一种策略正则化提升探索效率的机器人控制方法

    公开(公告)号:CN118596159A

    公开(公告)日:2024-09-06

    申请号:CN202411071231.1

    申请日:2024-08-06

    Abstract: 本发明公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。

    混合乐观随机集成Q-learning的推荐方法

    公开(公告)号:CN116701763A

    公开(公告)日:2023-09-05

    申请号:CN202310702532.9

    申请日:2023-06-14

    Abstract: 本发明公开了混合乐观随机集成Q‑learning的推荐方法,包括:构建推荐策略的多个Q值网络和缓冲池;执行推荐时,选取Q值最大的动作并进行状态转移,并记录状态转移的交互轨迹存储到缓冲池;构造真实Q值估计的上置信界;形成集成了Q值网络的差异的目标值;更新Q值网络;重复进行Q值网络更新至策略性能;进行推荐运算。本发明通过集成Q值网络的差异性构造真实Q值估计的上置信界去鼓励在具有高的不确定性区域进行探索,集成Q值网络的差异衡量不确定性,继而用于Q值的TD更新过程中,进而解决基于强化学习推荐系统由于Q值被低估导致的样本探索利用效率低。

    基于深度强化学习的单音轨MIDI音乐生成方法

    公开(公告)号:CN114842819B

    公开(公告)日:2023-06-23

    申请号:CN202210511149.0

    申请日:2022-05-11

    Abstract: 本发明公开了一种基于深度强化学习的单音轨MIDI音乐生成方法,包括:S1、基于LSTM网络构建节奏生成网络,并基于强化学习Actor‑Critic算法构建音符生成网络;S2、获取原始MIDI音乐数据,并提取节奏数据和音符数据转换为网络训练数据;S3、采用步骤S2中转换后的网络训练数据训练节奏生成网络和音符生成网络;S4、采用训练后的节奏生成网络生成节奏数据,并采用训练后的音符生成网络生成音符数据;S5、将生成的节奏和音符数据组合并转换为完整的单音轨MIDI音乐作品。本发明应用时能使生成音乐的节奏与音符之间搭配更为合理,进而能提升生成音乐的和谐性。

Patent Agency Ranking