基于自动发现抽象动作的机器人分层强化学习初始化方法

    公开(公告)号:CN105955921A

    公开(公告)日:2016-09-21

    申请号:CN201610238118.7

    申请日:2016-04-18

    Applicant: 苏州大学

    CPC classification number: G06N99/005

    Abstract: 本发明公开了一种基于自动发现抽象动作的机器人分层强化学习初始化方法,其特征在于:包括Q学习模块、创建抽象动作模块、状态‑抽象动作评估值Q(s,o)初始化模块以及分层强化学习模块,先利用Q学习模块让机器人与环境交互产生经验,然后基于这些经验使用创建抽象动作模块让机器人创建抽象动作,最后机器人通过初始化状态‑抽象动作评估值Q(s,o)初始化模块,从普通的强化学习转向分层强化学习模块进行分层强化学习,并记录学习结果。本发明通过对状态‑抽象动作评估值Q(s,o)进行初始化,使机器人采用分层强化学习方法求解复杂环境中的任务时收敛速度更快。

    一种面向动态环境的机器人寻径在线控制方法

    公开(公告)号:CN105867427A

    公开(公告)日:2016-08-17

    申请号:CN201610238109.8

    申请日:2016-04-18

    Applicant: 苏州大学

    CPC classification number: G05D1/12

    Abstract: 本发明公开了一种面向动态环境的机器人寻径在线控制方法,包括:1)环境和参数初始化;2)由机器人的基本动作集合和抽象动作集合构成机器人的可选动作,初始化所有的状态?动作的评估值;所述抽象动作集合中的每个抽象动作为可中断的抽象动作;3)生成随机障碍物;4)通过动作选择模块及更新模块选择动作并对状态?动作的评估值更新;5)若到达终点状态,转向步骤6),否则进行步骤4);6)满足条件时结束本次任务,否则转向步骤3)。本发明通过引入中断机制,能够在线控制机器人使其能够将抽象动作应用到动态不确定的环境中,灵活应对动态环境,从而使得机器人能够解决复杂、动态环境下的任务,在提高效率的同时拓展应用环境。

    基于交通监控视频的路况实时获取装置及方法

    公开(公告)号:CN104933867A

    公开(公告)日:2015-09-23

    申请号:CN201510338643.1

    申请日:2015-06-17

    Applicant: 苏州大学

    CPC classification number: G08G1/0104 H04N7/181

    Abstract: 本发明公开了一种基于交通监控视频的路况实时获取装置及方法,其特征在于:包括视频处理器、网络模块、远程服务器、数据推送器以及数据接收器,其中:所述视频处理器读取对应所述监控设备上的视频图像,按照获得的图片求取每一帧图片中各像素点的灰度值X,并与预存参数值X-1比较,由核方法评估路段拥堵程度ci,并上传;由远程服务器实时分析,获得路段拥堵程度值C,数据推送器将拥堵路段的信息发送至数据接收器上,由数据接收器输出。本发明通过视频处理器分析实时图像灰度,利用核方法评估拥堵程度并上传,由数据推送器实时发送信息,接收器实时播报,实现驾驶员路况信息的实时获取,及时规划行车路线,减少拥堵。

    一种基于序列预测蛋白质变性温度的系统及其方法

    公开(公告)号:CN110415762B

    公开(公告)日:2023-03-31

    申请号:CN201910719819.6

    申请日:2019-08-06

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于序列预测蛋白质变性温度的系统及其方法,该系统由蛋白质信息输入模块、蛋白质序列特征计算模块、蛋白质稳定性预测模块、预测结果输出模块和数据库组成。该预测方法主要为首先获取单一或批量蛋白质序列,并计算蛋白质的物理特征、电荷特征、结构特征、生化特征和属性特征,然后提取重要特征并计算蛋白质的变性温度,作为蛋白质稳定性的预测结果,最后保存预测结果并自动发送给用户。本发明的这种预测方式实用性强,且具有较高的预测准确率,特别是在蛋白质结构未知的情况下也能预测蛋白质变性温度的具体数值,而不是仅仅进行分类预测,泛化性强,对于蛋白质功能分析、辅助蛋白质工程和设计、药物设计等方面具有重大的意义。

    兼顾公平性的上下文感知学习的结果预测分类器

    公开(公告)号:CN108596255A

    公开(公告)日:2018-09-28

    申请号:CN201810378883.8

    申请日:2018-04-25

    Applicant: 苏州大学

    Abstract: 本发明公开了一种兼顾公平性的上下文感知学习的结果预测分类器,分类器采用如下分类步骤:(1)初始化分类器的探索参数;(2)初始化分类器的权重矩阵;(3)判断数据库中是否有数据,如是,则随机选取其中一条数据的特征,转至步骤(4),如否,则结束训练;(4)根据选取赌博臂的概率取出分类样本;(5)根据权重矩阵预测结果;(6)接收实际结果的反馈,判断是否满足条件,如是,则预测失败,转至步骤(7),如否,则转至步骤(3);(7)更新分类器的权重矩阵。本发明分类器利用划分结果更新分类器,根据特征划分出类别,如划分错误,则进行分类器权重矩阵的更新,从而使分类器划分出的类别更准确了,使得预测成功率更高。

    一种基于模型学习的清洁机器人最优目标路径规划方法

    公开(公告)号:CN105740644B

    公开(公告)日:2018-04-13

    申请号:CN201610171859.8

    申请日:2016-03-24

    Applicant: 苏州大学

    Inventor: 刘全 周谊成 朱斐

    CPC classification number: G05D1/02

    Abstract: 本发明公开了一种基于模型学习的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna‑H算法的基础上,提出一种基于自模拟度量和R‑MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学习框架和Dyna‑H算法为基础,使用R‑MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna‑H中的欧式距离度量方法,从而提高模型的学习效率。本发明的优点是模型学习效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。

    基于行动者-评论家方法的机器人运动控制方法和装置

    公开(公告)号:CN105690392B

    公开(公告)日:2017-11-28

    申请号:CN201610232236.7

    申请日:2016-04-14

    Applicant: 苏州大学

    Inventor: 刘全 许丹 朱斐

    Abstract: 本发明公开了一种基于行动者‑评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。

    基于行动者-评论家方法的机器人运动控制方法和装置

    公开(公告)号:CN105690392A

    公开(公告)日:2016-06-22

    申请号:CN201610232236.7

    申请日:2016-04-14

    Applicant: 苏州大学

    Inventor: 刘全 许丹 朱斐

    CPC classification number: B25J9/1664

    Abstract: 本发明公开了一种基于行动者-评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。

Patent Agency Ranking