一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

    公开(公告)号:CN113110550B

    公开(公告)日:2022-09-23

    申请号:CN202110442229.0

    申请日:2021-04-23

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。

    基于用户模型学习的多任务强化学习用户运营方法及系统

    公开(公告)号:CN114912357A

    公开(公告)日:2022-08-16

    申请号:CN202210537142.6

    申请日:2022-05-18

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于用户模型学习的多任务强化学习用户运营方法及系统,去运营平台线上环境收集每个城市最近一段时间的平台操作和用户反馈数据,换成适用于机器学习的用户轨迹数据和用户行为数据;使用每个城市的用户轨迹数据,训练用于提取特征的编码器网络,输出每个城市每个用户的特征向量;进行聚类操作,构建通用网络模型结构;从每个城市的用户行为数据中去还原出每个城市的用户模型;使用通用网络模型结构初始化算智能体模型,以多个城市的用户模型为多任务环境来训练算法的通用智能体模型。将通用智能体模型中的通用运营策略模型部署到多个城市的线上环境,进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。

    一种基于分布式强化学习的自主设备决策控制方法

    公开(公告)号:CN114839879A

    公开(公告)日:2022-08-02

    申请号:CN202210553231.X

    申请日:2022-05-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于分布式强化学习的自主设备决策控制方法,包括训练环境搭建步骤,分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点,将自主设备仿真环境封装到容器镜像中,分配虚拟化资源。启动分布式智能体训练系统,初始化训练端模型参数,发送参数到缓存节点,再转发到采样节点,完成智能体与仿真环境的交互过程后,再回传数据到训练节点,使用离轨深度强化学习算法更新模型参数。分布式训练完成后,将模型从系统中导出,切换到快速推理模式,用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练,并且能够充分利用硬件资源,同时对于通信模式的改良能够显著减小带宽需求。

    一种跨类别图像识别模型重用方法和系统

    公开(公告)号:CN113963235A

    公开(公告)日:2022-01-21

    申请号:CN202111254295.1

    申请日:2021-10-27

    Applicant: 南京大学

    Abstract: 本发明公开一种跨类别图像识别模型重用方法和系统,从训练数据集中随机抽取多个样本元组,并使用模型T计算这些样本元组的关系评价矩阵;使用模型S计算这些样本元组的关系评价矩阵;将T计算得到的关系评价矩阵与S计算得到的关系评价矩阵做匹配,从而优化新类模型S;从训练数据集中随机抽取多个样本小批,并使用T计算这些样本小批的新类分类置信度;使用S计算这些样本小批的新类分类置信度;将T计算得到的新类分类置信度与S计算得到的新类分类置信度做匹配,同时最小化S在这些样本小批上的交叉熵损失,从而进一步优化S;第二阶段结束后,返回训练好的新类S。本发明可以提高旧模型的可复用性。

    基于强化学习的无人机对抗博弈训练控制方法

    公开(公告)号:CN113282100A

    公开(公告)日:2021-08-20

    申请号:CN202110464589.0

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请公开了一种基于强化学习的无人机对抗博弈训练控制方法,包括如下步骤:使主智能体与对手池中所有对手对战并统计所述主智能体的胜率;判断所述主智能体的胜率是否满足预设要求;如果所述主智能体的胜率满足预设要求,则根据所述主智能体的胜率选择对抗对手;使主智能体与所述对抗对手训练直至所述主智能体策略收敛。本申请的有益之处在于。本申请的有益之处在于提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。

    一种基于最大熵强化学习框架的无人驾驶车道保持方法

    公开(公告)号:CN113276852A

    公开(公告)日:2021-08-20

    申请号:CN202110375328.1

    申请日:2021-04-08

    Applicant: 南京大学

    Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

    基于动力学控制和随机化的交通流仿真方法

    公开(公告)号:CN113268810A

    公开(公告)日:2021-08-17

    申请号:CN202110466328.2

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于动力学控制和随机化的交通流仿真方法,包括如下步骤:创建若干相异的道路单元;配置每段道路起始导航点和结束导航点、模拟车辆和模拟行人的生成位置集合、速度限制以及限制可行区域的墙体;将各道路单元进行拼接,使驶出道路的结束导航点靠近驶入道路的开始导航点;随机从所有道路单元的模拟行人生成位置集合中选取初始化位置等步骤。本申请的有益之处在于提供了一种有效模拟车辆和行人相互作用关系的基于动力学控制和随机化的交通流仿真方法。

    一种隔离分布核构建方法、异常数据检测方法及装置

    公开(公告)号:CN111666316A

    公开(公告)日:2020-09-15

    申请号:CN202010565100.4

    申请日:2020-06-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。

    一种弱监督下的多距离度量图像检索方法

    公开(公告)号:CN110502660A

    公开(公告)日:2019-11-26

    申请号:CN201910803477.6

    申请日:2019-08-28

    Applicant: 南京大学

    Abstract: 本发明公开一种弱监督下的多距离度量图像检索方法,获取图像及图像数据的弱监督关联信息;初始化K个距离度量;在收集到的数据上优化距离度量;检查K个距离度量是否合法;对不合法的距离度量做投影,将其变换为合法的距离度量;重复上述过程,直到所有距离度量都不再产生较大的变化,返回获取的K个距离度量函数;用户输入一张图片,从数据库中检索与这张图片相似的图片;分别计算K个相似度函数给出的被检索图片和数据库中所有候选图片之间的相似度;利用聚合函数将K个相似度进行聚合,获取该图片在各种语义下和数据库中所有图片的整体相似度;返回整体相似度最高的若干张候选图片。本发明考虑图像之间多种相似性和内在关联,提高检索准确度。

Patent Agency Ranking