基于无模型回归强化学习的机器人系统控制方法及装置

    公开(公告)号:CN119225189A

    公开(公告)日:2024-12-31

    申请号:CN202411774178.1

    申请日:2024-12-05

    Abstract: 本发明涉及无模型回归强化学习技术领域,特别涉及基于无模型回归强化学习的机器人系统控制方法及装置。方法包括:对机器人非线性系统进行系统变换,寻找可容许控制作为输入数据,收集系统信息,包括不同时刻的状态信息、执行‑评判网络的基函数值等;利用收集的信息计算关键列向量和性能指标函数。利用迭代回归信息推导出辅助回归常数权值和整合执行‑评判网络的常数权值的迭代规则,基于最优执行‑评判网络值对机器人系统进行最优控制,使机器人系统进行物体抓取。本发明通过对机器人系统信号的采集,不断迭代带折扣参数的神经网络权值,得到最优权值向量,获得最优决策控制方法,获得机器人系统最优控制决策,通过机器人系统对物体进行抓取。

    基于无模型回归强化学习的机器人系统控制方法及装置

    公开(公告)号:CN119225189B

    公开(公告)日:2025-03-07

    申请号:CN202411774178.1

    申请日:2024-12-05

    Abstract: 本发明涉及无模型回归强化学习技术领域,特别涉及基于无模型回归强化学习的机器人系统控制方法及装置。方法包括:对机器人非线性系统进行系统变换,寻找可容许控制作为输入数据,收集系统信息,包括不同时刻的状态信息、执行‑评判网络的基函数值等;利用收集的信息计算关键列向量和性能指标函数。利用迭代回归信息推导出辅助回归常数权值和整合执行‑评判网络的常数权值的迭代规则,基于最优执行‑评判网络值对机器人系统进行最优控制,使机器人系统进行物体抓取。本发明通过对机器人系统信号的采集,不断迭代带折扣参数的神经网络权值,得到最优权值向量,获得最优决策控制方法,获得机器人系统最优控制决策,通过机器人系统对物体进行抓取。

    一种基于触听融合的智能盲人象棋实现方法及装置

    公开(公告)号:CN119455366A

    公开(公告)日:2025-02-18

    申请号:CN202411610771.2

    申请日:2024-11-12

    Abstract: 本发明提供一种基于触听融合的智能盲人象棋实现方法及装置,涉及智能辅助设备技术领域。该方法包括:通过设置于棋盘内部的霍尔效应传感器获取输出电压,根据输出电压得到棋盘上的棋子类型以及棋盘上的棋子位置;通过设置于触摸感知小板内部的电阻式触摸板电路获取手指压力,根据手指压力、棋盘上的棋子类型以及棋盘上的棋子位置得到手指对应的棋子类型以及手指对应的棋子位置;通过设置于棋盘内部的语音提示模块,将输出电压转化为语音信号进行输出;通过设置于棋盘内部的智能裁判功能模块,根据输出电压判断棋子移动的合法性。涉及一种为盲人设计的象棋游戏设备,结合触摸感知、语音提示和智能裁判功能,旨在提升盲人参与象棋活动的体验。

    异构多无人机数据协作近似动态规划最优一致方法及装置

    公开(公告)号:CN119228329B

    公开(公告)日:2025-03-07

    申请号:CN202411727160.6

    申请日:2024-11-28

    Abstract: 本发明提供一种异构多无人机数据协作近似动态规划最优一致方法及装置,涉及多智能体控制技术领域。该方法包括:获取异构多无人机系统的状态数据,构建带有补偿信号的识别器,逼近异构多无人机系统的动态模型信息,构建带有动态信号的补偿器,获得带补偿器识别神经网络的权值更新规则;根据权值更新规则,构建哈密尔顿函数;根据哈密尔顿函数,构建带有协作信号的累积平方误差;采用梯度下降法,获得累积执行‑协作评判神经网络的权值更新规则,计算相邻两次迭代常数权值;根据相邻两次迭代常数权值的误差,判断是否满足预设的阈值条件;若满足,停止迭代,输出异构多无人机系统最优一致的解。采用本发明可提高算法扩展性,降低算法复杂度。

    异构多无人机数据协作近似动态规划最优一致方法及装置

    公开(公告)号:CN119228329A

    公开(公告)日:2024-12-31

    申请号:CN202411727160.6

    申请日:2024-11-28

    Abstract: 本发明提供一种异构多无人机数据协作近似动态规划最优一致方法及装置,涉及多智能体控制技术领域。该方法包括:获取异构多无人机系统的状态数据,构建带有补偿信号的识别器,逼近异构多无人机系统的动态模型信息,构建带有动态信号的补偿器,获得带补偿器识别神经网络的权值更新规则;根据权值更新规则,构建哈密尔顿函数;根据哈密尔顿函数,构建带有协作信号的累积平方误差;采用梯度下降法,获得累积执行‑协作评判神经网络的权值更新规则,计算相邻两次迭代常数权值;根据相邻两次迭代常数权值的误差,判断是否满足预设的阈值条件;若满足,停止迭代,输出异构多无人机系统最优一致的解。采用本发明可提高算法扩展性,降低算法复杂度。

Patent Agency Ranking