-
公开(公告)号:CN114721397A
公开(公告)日:2022-07-08
申请号:CN202210412829.7
申请日:2022-04-19
Applicant: 北方工业大学
IPC: G05D1/02
Abstract: 一种基于强化学习和好奇心的迷宫机器人路径规划方法,属于移动机器人技术领域。该模型以强化学习为基础,包括Q‑learning算法,好奇心算法,以及回溯强化。其中,好奇心算法包括一个BP网络,联想记忆网络和内部奖励三部分。算法首先感知所在节点以及状态;随后根据好奇心算法进行好奇心奖励计算,而后根据Q‑learning算法更新公式计算Q值;选择动作;发生状态转移;到达目的地后进行回溯强化;重复以上过程直至学习到最短路径。本发明引入基于预测误差的好奇机制,使得算法对未知环境有更好的探索能力,同时也降低了重复探索的次数,减少了学习过程中的寻路时间。使得机器人在迷宫中能更好更快地寻得最优解。
-
公开(公告)号:CN114721397B
公开(公告)日:2024-05-31
申请号:CN202210412829.7
申请日:2022-04-19
Applicant: 北方工业大学
IPC: G05D1/43
Abstract: 一种基于强化学习和好奇心的迷宫机器人路径规划方法,属于移动机器人技术领域。该模型以强化学习为基础,包括Q‑learning算法,好奇心算法,以及回溯强化。其中,好奇心算法包括一个BP网络,联想记忆网络和内部奖励三部分。算法首先感知所在节点以及状态;随后根据好奇心算法进行好奇心奖励计算,而后根据Q‑learning算法更新公式计算Q值;选择动作;发生状态转移;到达目的地后进行回溯强化;重复以上过程直至学习到最短路径。本发明引入基于预测误差的好奇机制,使得算法对未知环境有更好的探索能力,同时也降低了重复探索的次数,减少了学习过程中的寻路时间。使得机器人在迷宫中能更好更快地寻得最优解。
-
公开(公告)号:CN114942637B
公开(公告)日:2024-05-28
申请号:CN202210541180.9
申请日:2022-05-17
Applicant: 北方工业大学
IPC: G05D1/43 , G05D1/65 , G05D1/644 , G05D1/648 , G05D109/10
Abstract: 一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法,属于智能机器人技术领域。系统通过感知器感受当前状态与环境收益;再与内部状态共同将机器人内,外部信息传入到环境状态系统生成更深层环境信息;情感系统会产生情感与相关记忆,机器人通过反思记忆与分析,从而进行行为选择;随着搜索时间上升,机器人知识也逐渐丰富,直至满足学习停止条件。本发明引入具有情感与记忆机制,充分利用机器人在迷宫环境搜索过程中产生的情感与记忆,采用情感奖励为内部奖励的方式避免环境中稀疏奖励学习效率低,利用环境状态及相关信息的记忆,有效避免同一状态与动作的重复学习,实现更有效搜索。本发明使机器人具有较强自主能力,也提高了学习速度。
-
公开(公告)号:CN114942637A
公开(公告)日:2022-08-26
申请号:CN202210541180.9
申请日:2022-05-17
Applicant: 北方工业大学
IPC: G05D1/02
Abstract: 一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法,属于智能机器人技术领域。系统通过感知器感受当前状态与环境收益;再与内部状态共同将机器人内,外部信息传入到环境状态系统生成更深层环境信息;情感系统会产生情感与相关记忆,机器人通过反思记忆与分析,从而进行行为选择;随着搜索时间上升,机器人知识也逐渐丰富,直至满足学习停止条件。本发明引入具有情感与记忆机制,充分利用机器人在迷宫环境搜索过程中产生的情感与记忆,采用情感奖励为内部奖励的方式避免环境中稀疏奖励学习效率低,利用环境状态及相关信息的记忆,有效避免同一状态与动作的重复学习,实现更有效搜索。本发明使机器人具有较强自主能力,也提高了学习速度。
-
公开(公告)号:CN114596567A
公开(公告)日:2022-06-07
申请号:CN202210264800.9
申请日:2022-03-17
Applicant: 北方工业大学
IPC: G06V30/244 , G06V10/44 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于动态前馈神经网络结构和成长率函数的手写数字识别方法,包括:训练初始化小规模的神经网络,暂停训练对神经网络的性能进行阶段性测试;基于性能指标计算得出成长率,通过成长率计算在恢复训练时需要增长的网络规模;基于网络性能测试结果,筛选需要分裂和删减的神经元;对于被分裂的神经元,通过调整权重值保持网络输出不变;对于被删减的冗余神经元,对相邻神经元的输出进行补偿;判断网络增长是否成熟,当网络增长到合适的规模时停止增长,输出当前网络,从而得到在应用前馈神经网络对手写数字进行分类时较为合适的网络结构及参数:避免网络规模过小时引起的欠拟合,以及网络规模过大引起的过拟合,降低运算时间和计算成本。
-
-
-
-