-
公开(公告)号:CN113240119A
公开(公告)日:2021-08-10
申请号:CN202110375385.X
申请日:2021-04-08
Applicant: 南京大学
Abstract: 本发明公开一种用于游戏AI策略解释的跨模型蒸馏装置,主要包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。本发明为研究人员提供了一种针对游戏AI的策略解释装置,能够实时对游戏AI的决策行为提供可理解的解释信息,从而揭示观测和行为之间的因果结构,增强游戏互动性,同时还能够为人类玩家的游戏过程提供技术参考。
-
公开(公告)号:CN113160562A
公开(公告)日:2021-07-23
申请号:CN202110337809.3
申请日:2021-03-30
Applicant: 南京大学
IPC: G08G1/01 , G08G1/0967 , G06N3/00 , G06N20/00
Abstract: 本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。
-
公开(公告)号:CN112131660A
公开(公告)日:2020-12-25
申请号:CN202010944781.5
申请日:2020-09-10
Applicant: 南京大学
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
-
公开(公告)号:CN112034888A
公开(公告)日:2020-12-04
申请号:CN202010944803.8
申请日:2020-09-10
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种固定翼无人机自主控制协作策略训练方法,包含以下步骤:(1)基于动力学构建固定翼无人机操控仿真环境Es,采集飞行员控制无人机的真实轨迹数据,通过监督学习的方式学习得到无人机飞行控制策略;(2)构建简化的剥离了飞行控制的抽象环境Ea,创建分组对抗的两组无人机群,使用APEX_QMIX算法学习得到协作策略;(3)以分层强化学习的方式将飞行控制策略和协作策略进行组合,在仿真环境Es中进学得融合策略;(3)迁移到真实环境。本发明方法在现实场景中意义重大,具有泛化性好,成本低,鲁棒性强等特性。
-
公开(公告)号:CN111666949A
公开(公告)日:2020-09-15
申请号:CN202010546056.2
申请日:2020-06-16
Applicant: 南京大学
Abstract: 本发明公开一种基于迭代分割的图像语义分割方法,包括:图像预处理,通过图像增强模型对输入的样本图像进行增强,得到增强样本图像,然后对所述增强样本图像进行若干次分割,如此反复得到最终的卷积神经网络,根据最终的卷积神经网络对图像进行语义分割,输出语义分割结果;本发明后续的样本图像是由最初的增强样本图像分割而成的,由于其经过多次分割,数量会逐渐庞大,并且先训练后验证,再训练再验证,如此反复得到最终的卷积神经网络,训练数据和验证数据之间相当于存在母体和子体关系,既不会产生因训练数据差异较大导致的精度降低问题,而且还由于训练数据之间的漂移较小,有助于提升精度。
-
公开(公告)号:CN111461264A
公开(公告)日:2020-07-28
申请号:CN202010448712.5
申请日:2020-05-25
Applicant: 南京大学
Abstract: 本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;根据类别个数N准备N个生成对抗网络模型;训练第i个类别的图像数据,i∈{1,2,...,N};训练生成对抗网络Gi,直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值;固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;将N个判别器并联排列组合成判别器组;将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。
-
公开(公告)号:CN111136659A
公开(公告)日:2020-05-12
申请号:CN202010040178.4
申请日:2020-01-15
Applicant: 南京大学
IPC: B25J9/16
Abstract: 本发明公开一种基于第三人称模仿学习的机械臂动作学习方法及系统,用于机械臂自动控制,使得机械臂可以通过观看第三方示范来自动学习如何完成相应的操控任务。本发明中样本均以视频形式存在,而无需使用大量传感器来获取状态信息;在判别器模块中使用了图像差分方法,可以使判别器模块忽略学习对象的外观与环境背景,从而可以使用第三方示范数据进行模仿学习;大大降低了样本的获取成本;通过在判别器模块中使用了变分判别器瓶颈来约束判别器对由机械臂产生的示范的判别准确率,更好地平衡判别器模块与控制策略模块的训练过程;本发明能够快速模仿用户示范的动作,操作简单灵活,对环境及示范者要求低。
-
公开(公告)号:CN101419632B
公开(公告)日:2010-12-08
申请号:CN200810243144.4
申请日:2008-12-09
Applicant: 南京大学
Abstract: 本发明提供一种在线数字媒体分类的自适应特征提取方法,通过以下步骤来实现对媒体对象的高效分类:(1)起始;(2)检测预测模型是否已训练好,如果预测模型尚未建立,执行步骤3,否则转入步骤6;(3)将特征按提取时间开销排序;(4)按序提取训练媒体对象的特征;(5)按序训练一组备选子预测模型序列;(6)使用子模型序列对媒体对象进行分类;(7)输出媒体对象的分类标记;(8)结束。该方法自动地对“简单”的对象只提取少量特征,而对“复杂”的对象提取更多的特征,这样就可以节省用于特征提取的时间开销,从而提高在线数字媒体处理的速度。
-
公开(公告)号:CN101419632A
公开(公告)日:2009-04-29
申请号:CN200810243144.4
申请日:2008-12-09
Applicant: 南京大学
Abstract: 本发明提供一种在线数字媒体分类的自适应特征提取方法,通过以下步骤来实现对媒体对象的高效分类:(1)起始;(2)检测预测模型是否已训练好,如果预测模型尚未建立,执行步骤3,否则转入步骤6;(3)将特征按提取时间开销排序;(4)按序提取训练媒体对象的特征;(5)按序训练一组备选子预测模型序列;(6)使用子模型序列对媒体对象进行分类;(7)输出媒体对象的分类标记;(8)结束。该方法自动地对“简单”的对象只提取少量特征,而对“复杂”的对象提取更多的特征,这样就可以节省用于特征提取的时间开销,从而提高在线数字媒体处理的速度。
-
-
-
-
-
-
-
-