-
公开(公告)号:CN118627574B
公开(公告)日:2024-10-11
申请号:CN202411102954.3
申请日:2024-08-13
Applicant: 安徽大学
IPC: G06N3/08 , G06N3/04 , G06F18/213
Abstract: 本发明涉及智能体强化学习技术领域,尤其涉及一种基于上下文状态和动作权重的强化学习方法,该方法包括以下步骤:在基于Mujoco框架的连续动作控制环境中,获取机器人与环境进行交互所产生的状态数据信息;基于状态数据信息对执行动作预测模型进行训练以及测试,将由环境反馈的实时状态信息输入执行动作预测模型中输出对应预测的执行动作。本发明加强了网络模型对未来状态的表征能力,可以开阔网络模型在智能体与环境交互过程中的全局视野,以帮助网络模型更好地捕捉到未来状态信息和状态之间的关联,提高了样本数据的利用效率,增强了强化学习方法,使得在连续动作控制环境任务中取得了理想的效果。
-
公开(公告)号:CN117893873B
公开(公告)日:2024-06-07
申请号:CN202410304634.X
申请日:2024-03-18
Applicant: 安徽大学
Abstract: 本发明涉及一种基于多模态信息融合的主动跟踪方法,包括;获取彩色图像#imgabs0#,深度图像#imgabs1#和法线贴图#imgabs2#三种数据信息;将其输入多模态信息预处理模块中得到三种数据信息的初始特征;多模态信息融合模块采用预训练和正式训练的两阶段的训练方式对初始特征进行特征融合,将正式训练特征输出输入具有信息融合正则化约束的强化学习AC框架网络RACNet中,输出对应预测的执行动作;本发明利用智能体所获取的多模态信息进行融合来更精确地描述当前状态,同时增加对融合后特征的约束来提升强化学习算法训练效率,在训练效率和跟踪精度上取得了理想的效果。
-
公开(公告)号:CN118627574A
公开(公告)日:2024-09-10
申请号:CN202411102954.3
申请日:2024-08-13
Applicant: 安徽大学
IPC: G06N3/08 , G06N3/04 , G06F18/213
Abstract: 本发明涉及智能体强化学习技术领域,尤其涉及一种基于上下文状态和动作权重的强化学习方法,该方法包括以下步骤:在基于Mujoco框架的连续动作控制环境中,获取机器人与环境进行交互所产生的状态数据信息;基于状态数据信息对执行动作预测模型进行训练以及测试,将由环境反馈的实时状态信息输入执行动作预测模型中输出对应预测的执行动作。本发明加强了网络模型对未来状态的表征能力,可以开阔网络模型在智能体与环境交互过程中的全局视野,以帮助网络模型更好地捕捉到未来状态信息和状态之间的关联,提高了样本数据的利用效率,增强了强化学习方法,使得在连续动作控制环境任务中取得了理想的效果。
-
公开(公告)号:CN117893873A
公开(公告)日:2024-04-16
申请号:CN202410304634.X
申请日:2024-03-18
Applicant: 安徽大学
Abstract: 本发明涉及一种基于多模态信息融合的主动跟踪方法,包括;获取彩色图像#imgabs0#,深度图像#imgabs1#和法线贴图#imgabs2#三种数据信息;将其输入多模态信息预处理模块中得到三种数据信息的初始特征;多模态信息融合模块采用预训练和正式训练的两阶段的训练方式对初始特征进行特征融合,将正式训练特征输出输入具有信息融合正则化约束的强化学习AC框架网络RACNet中,输出对应预测的执行动作;本发明利用智能体所获取的多模态信息进行融合来更精确地描述当前状态,同时增加对融合后特征的约束来提升强化学习算法训练效率,在训练效率和跟踪精度上取得了理想的效果。
-
-
-