-
公开(公告)号:CN118780314B
公开(公告)日:2025-04-04
申请号:CN202410973982.6
申请日:2024-07-19
Applicant: 电子科技大学
IPC: G06N3/006 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种联合内在动机探索的多智能体内在动机框架,提出了联合内在动机探索算法JIME;JIME包括两个组件:一个用于压缩多智能体联合观察的编码器和一个用于预测智能体联合动作的解码器;首先将环境状态#imgabs0#输入到编码器,得到#imgabs1#从#imgabs2#生成#imgabs3#然后将#imgabs4#输入到解码器,得到预测的动作#imgabs5#最后计算损失函数,通过反向传播算法更新编码器和解码器的参数,最小化总损失,得到最终的JIME。本发明提供了一种新的内在动机探索方法,通过整合两种奖励类型来增强QMIX算法,能够解决给定任务的智能代理学习策略的联合内在动机探索的多智能体内在动机框架。
-
-
公开(公告)号:CN119260713A
公开(公告)日:2025-01-07
申请号:CN202411416100.2
申请日:2024-10-11
Applicant: 电子科技大学
IPC: B25J9/16
Abstract: 该发明公开了一种基于保守模型强化学习的机器人控制方法,涉及机器学习技术领域。本发明基于保守模型强化学习的机器人控制方法,通过在每个模型学习步骤中,从集成概率模型中随机选择具有保守近似的估计模型。它以概率估计模型的集合形式出现,但包含了惩罚高估或过度乐观预测的机制。这保证了基于模型强化学习算法在保守性和泛化性之间的平衡,进而解决基于模型强化学习中模拟环境产生多步模型模拟样本严重偏离真实环境数据的问题。
-
公开(公告)号:CN115293334B
公开(公告)日:2024-09-27
申请号:CN202210963402.6
申请日:2022-08-11
Applicant: 电子科技大学
IPC: G06F30/27
Abstract: 本发明公开了基于模型的高样本率深度强化学习的无人设备控制方法,包括:获取轨迹数据,并将轨迹数据存入环境缓冲池中;对环境状态转移模型进行更新;进行多步交互轨迹预测生成预测数据,并将预测数据存入模型缓冲池;对Actor‑Critic策略模型进行更新;持续迭代更新环境状态转移模型和Actor‑Critic策略模型直至当前策略性能达到预期要求。本发明采用基于模型的深度强化学习的方法,构建一个环境状态转移模型来模拟无人设备与外界环境的交互,从而急剧减少无人设备与真实环境的交互次数,并且由环境状态转移模型产生的数据能够对无人设备行进控制策略进行有效的优化,使得对无人设备的控制变得高效。
-
公开(公告)号:CN114842819A
公开(公告)日:2022-08-02
申请号:CN202210511149.0
申请日:2022-05-11
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于深度强化学习的单音轨MIDI音乐生成方法,包括:S1、基于LSTM网络构建节奏生成网络,并基于强化学习Actor‑Critic算法构建音符生成网络;S2、获取原始MIDI音乐数据,并提取节奏数据和音符数据转换为网络训练数据;S3、采用步骤S2中转换后的网络训练数据训练节奏生成网络和音符生成网络;S4、采用训练后的节奏生成网络生成节奏数据,并采用训练后的音符生成网络生成音符数据;S5、将生成的节奏和音符数据组合并转换为完整的单音轨MIDI音乐作品。本发明应用时能使生成音乐的节奏与音符之间搭配更为合理,进而能提升生成音乐的和谐性。
-
公开(公告)号:CN118596159B
公开(公告)日:2024-11-08
申请号:CN202411071231.1
申请日:2024-08-06
Applicant: 电子科技大学
Abstract: 本发明公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。
-
公开(公告)号:CN118780314A
公开(公告)日:2024-10-15
申请号:CN202410973982.6
申请日:2024-07-19
Applicant: 电子科技大学
IPC: G06N3/006 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种联合内在动机探索的多智能体内在动机框架,提出了联合内在动机探索算法JIME;JIME包括两个组件:一个用于压缩多智能体联合观察的编码器和一个用于预测智能体联合动作的解码器;首先将环境状态#imgabs0#输入到编码器,得到#imgabs1#从#imgabs2#生成#imgabs3#然后将#imgabs4#输入到解码器,得到预测的动作#imgabs5#最后计算损失函数,通过反向传播算法更新编码器和解码器的参数,最小化总损失,得到最终的JIME。本发明提供了一种新的内在动机探索方法,通过整合两种奖励类型来增强QMIX算法,能够解决给定任务的智能代理学习策略的联合内在动机探索的多智能体内在动机框架。
-
公开(公告)号:CN118596159A
公开(公告)日:2024-09-06
申请号:CN202411071231.1
申请日:2024-08-06
Applicant: 电子科技大学
Abstract: 本发明公开了一种策略正则化提升探索效率的机器人控制方法,涉及机器学习技术领域。包括:构建策略网络、多个Q值网络和缓冲池;机器人使用策略网络产生动作与环境进行交互,并记录所述交互轨迹存储到缓冲池;从缓冲池中采样状态数据构建策略正则化值;根据所述缓冲池数据更新所述Q值网络和策略网络;重复策略与环境的交互并进行Q值网络和策略网络的更新至策略性能满足预设要求;根据最终的策略网络控制机器人进行任务。本发明通过构建策略正则化项去鼓励在更多的区域进行探索,进而解决强化学习中Q值被低估导致的样本探索利用效率低。
-
公开(公告)号:CN116701763A
公开(公告)日:2023-09-05
申请号:CN202310702532.9
申请日:2023-06-14
Applicant: 电子科技大学 , 成都中天泰瑞科技有限公司
IPC: G06F16/9535 , G06N3/0464 , G06N3/092 , G06N3/048
Abstract: 本发明公开了混合乐观随机集成Q‑learning的推荐方法,包括:构建推荐策略的多个Q值网络和缓冲池;执行推荐时,选取Q值最大的动作并进行状态转移,并记录状态转移的交互轨迹存储到缓冲池;构造真实Q值估计的上置信界;形成集成了Q值网络的差异的目标值;更新Q值网络;重复进行Q值网络更新至策略性能;进行推荐运算。本发明通过集成Q值网络的差异性构造真实Q值估计的上置信界去鼓励在具有高的不确定性区域进行探索,集成Q值网络的差异衡量不确定性,继而用于Q值的TD更新过程中,进而解决基于强化学习推荐系统由于Q值被低估导致的样本探索利用效率低。
-
公开(公告)号:CN114842819B
公开(公告)日:2023-06-23
申请号:CN202210511149.0
申请日:2022-05-11
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于深度强化学习的单音轨MIDI音乐生成方法,包括:S1、基于LSTM网络构建节奏生成网络,并基于强化学习Actor‑Critic算法构建音符生成网络;S2、获取原始MIDI音乐数据,并提取节奏数据和音符数据转换为网络训练数据;S3、采用步骤S2中转换后的网络训练数据训练节奏生成网络和音符生成网络;S4、采用训练后的节奏生成网络生成节奏数据,并采用训练后的音符生成网络生成音符数据;S5、将生成的节奏和音符数据组合并转换为完整的单音轨MIDI音乐作品。本发明应用时能使生成音乐的节奏与音符之间搭配更为合理,进而能提升生成音乐的和谐性。
-
-
-
-
-
-
-
-
-