基于随机网络预测误差的专家数据扩增方法和装置

    公开(公告)号:CN116352700A

    公开(公告)日:2023-06-30

    申请号:CN202310049748.X

    申请日:2023-02-01

    Applicant: 南京大学

    Abstract: 本发明公开一种基于随机网络预测误差的专家数据扩增方法和装置,通过在机械臂专家数据上使用随机网络蒸馏方法训练预测网络,能够使用预测网络的预测误差判别与机械臂专家数据相似的数据,机械臂在目标任务的场景下进行一系列操作采样得到数据,根据预测误差筛选采样数据中与机械臂专家数据相似的部分,然后将筛选得到的数据对原始机械臂专家数据集进行扩增。本发明能在不与机械臂专家交互的条件下,通过机械臂在目标任务的场景下与环境交互采样数据并利用预测误差筛选与专家数据接近的数据,对原始机械臂专家数据集进行扩增,从而提升使用行为克隆训练的机械臂的策略的性能。

    一种基于计算机视觉的开放道路交通参与者数据采集方法

    公开(公告)号:CN110222667B

    公开(公告)日:2023-04-07

    申请号:CN201910519984.7

    申请日:2019-06-17

    Applicant: 南京大学

    Abstract: 本发明公开一种基于计算机视觉的开放道路交通参与者数据采集方法,包括对道路上行人及车辆的行动数据进行采集,获取到包含有交通行为的视频;用目标检测网络得到交通参与者检测的数据;提取图像中所有的特征点,并除去检测到的交通参与者上的特征点;基于检测到的特征点,对视频和检测结果进行增稳处理;用目标追踪算法得到每个交通参与者的轨迹;用视频第一帧中标志性地标的世界坐标和对应的像素坐标,计算从世界坐标系到像素坐标系的变换矩阵;并计算得到交通参与者轨迹数据中每个轨迹点的世界坐标系下的坐标;对于每一条轨迹,估计得到每个轨迹点的速度并对轨迹滤波;将道路情况以图像的形式绘制出来;提取出每个交通参与者的特征描述。

    基于元强化学习的车辆自适应的自动驾驶决策方法及系统

    公开(公告)号:CN113044064B

    公开(公告)日:2022-07-29

    申请号:CN202110356309.4

    申请日:2021-04-01

    Applicant: 南京大学

    Abstract: 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。

    基于队友感知的多智能体协作通信策略的训练系统和方法

    公开(公告)号:CN114757092A

    公开(公告)日:2022-07-15

    申请号:CN202210297894.X

    申请日:2022-03-24

    Applicant: 南京大学

    Abstract: 本发明公开了提出一种基于队友感知的多智能体协作通信策略的训练系统和方法,借助于队友建模方法,在与队友交互的过程中,为队友生成定制化、稀疏化的消息。通过多智能体强化学习通信方法,使得智能体能够在带宽受限的条件下学得能够抗干扰的高效协作通信策略,训练得到的智能体协作通信策略可以使智能体既能根据自身得到的观测信息选择合理的协作动作,又能够在合适时刻向队友发送信息以促进协作,或根据收到的队友信息进行配合。本发明在带宽受限的实际场景中仅通过少量节点间的通信实现紧密有效的协作,能够保证多智能体协作通信过程中的抗干扰能力。

    基于强化学习和残差建模的机器人现实迁移方法

    公开(公告)号:CN114290339B

    公开(公告)日:2022-06-21

    申请号:CN202210221230.5

    申请日:2022-03-09

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习和残差建模的机器人现实迁移方法,在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境。本发明提出了一种机器人训练框架,为减机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。该方法基于离线数据对模拟器环境状态空间和真实环境状态空间的残差进行建模,并使用学得的残差模型修正原始模拟器。最终将机器人在修正模拟器中学到的策略,迁移到真实环境中。

    基于强化学习和残差建模的机器人现实迁移系统和方法

    公开(公告)号:CN114290339A

    公开(公告)日:2022-04-08

    申请号:CN202210221230.5

    申请日:2022-03-09

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习和残差建模的机器人现实迁移系统和方法,在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境。本发明提出了一种机器人训练框架,为减机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。该方法基于离线数据对模拟器环境状态空间和真实环境状态空间的残差进行建模,并使用学得的残差模型修正原始模拟器。最终将机器人在修正模拟器中学到的策略,迁移到真实环境中。

    基于强化学习的无人机传感器故障时容错控制方法

    公开(公告)号:CN113467248A

    公开(公告)日:2021-10-01

    申请号:CN202110828311.7

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习的无人机传感器故障时容错控制方法,测定无人机各项物理常数,搭建无人机环境模拟器,在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型,逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中,在仿真环境随机故障测试后,得到最优的容错控制策略;在推理阶段,对于训练好的策略模型,基于策略网络输出交给无人机执行。本发明在仿真环境中模拟无人机不同的传感器故障组合,在策略与环境交互时,保证固定比例的无故障样本数据的存在,使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略,使得无人机传感器故障时的容错控制更加鲁棒,高效。

    基于模仿学习和强化学习算法的无人机飞行控制方法

    公开(公告)号:CN112162564B

    公开(公告)日:2021-09-28

    申请号:CN202011020765.3

    申请日:2020-09-25

    Applicant: 南京大学

    Abstract: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。

    基于部分可观测迁移强化学习的自动驾驶决策方法及系统

    公开(公告)号:CN111026127B

    公开(公告)日:2021-09-28

    申请号:CN201911373375.1

    申请日:2019-12-27

    Applicant: 南京大学

    Abstract: 本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。

    基于网络结构搜索的视觉问答方法

    公开(公告)号:CN113282721A

    公开(公告)日:2021-08-20

    申请号:CN202110464526.5

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于网络结构搜索的视觉问答方法,包括如下步骤:采用第一人工神经网络模型对原始图片进行特征提取;采用第二人工神经网络模型对文本信息进行特征提取;待搜索的网络结构框架为编码‑解码器框架,定义三种搜索算子供框架网络搜索,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;使用基于梯度交替优化策略搜索网络结构的架构权重和算子的操作权重;使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。本申请的有益之处在于提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。

Patent Agency Ranking