一种无人机避障与路径规划方法

    公开(公告)号:CN113110592A

    公开(公告)日:2021-07-13

    申请号:CN202110488468.X

    申请日:2021-05-06

    Applicant: 南京大学

    Abstract: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。

    基于元强化学习的车辆自适应的自动驾驶决策方法及系统

    公开(公告)号:CN113044064A

    公开(公告)日:2021-06-29

    申请号:CN202110356309.4

    申请日:2021-04-01

    Applicant: 南京大学

    Abstract: 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。

    一种用于深度森林的训练方法和装置

    公开(公告)号:CN113033827A

    公开(公告)日:2021-06-25

    申请号:CN202110234785.9

    申请日:2021-03-03

    Applicant: 南京大学

    Inventor: 周志华 徐轶轩

    Abstract: 本申请实施例的目的是提供一种用于深度森林的训练方法和装置。所述方法包括:通过对训练集中的各个样本进行特征离散化,得到相应的原始训练数据;对深度森林中的一个级联层进行训练;基于已训练的该级联层的森林学习机,生成该级联层对应的类别向量;对所述类别向量进行特征离散化;通过将特征离散化的类别向量和原始训练数据进行拼接,得到用于训练下一个级联层的训练数据;不断基于新的训练数据对后续级联层进行训练,直至满足预定的训练结束条件。

    一种基于模拟器训练的机器人控制方法

    公开(公告)号:CN108255059B

    公开(公告)日:2021-03-19

    申请号:CN201810054083.0

    申请日:2018-01-19

    Applicant: 南京大学

    Inventor: 俞扬 张超 周志华

    Abstract: 本发明公开了一种基于模拟器训练的机器人控制方法,对机器人待执行任务环境进行仿真建模,建立模拟器;在模拟器中,随机生成T个不同性能参数的机器人,各机器人分别训练策略,最终得到由各自策略构成的基策略集;在模拟器中,另外随机生成M个不同性能参数的机器人,并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重,将各机器人执行随机动作序列得到的特征Fi(A)和最优组合权重分别作为回归模型的输入和标签,优化得到最优的回归模型θ;在模拟器中,另外随机生成N个不同性能参数的机器人,在这N个机器人上优化出最优动作;在同一任务中,使未知的不同性能参数的机器人执行最优动作A*,得到该机器人的最优动作策略。

    基于模仿学习和强化学习算法的无人机飞行控制方法

    公开(公告)号:CN112162564A

    公开(公告)日:2021-01-01

    申请号:CN202011020765.3

    申请日:2020-09-25

    Applicant: 南京大学

    Abstract: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。

    一种无人机自主跟拍运动目标的方法

    公开(公告)号:CN112131661A

    公开(公告)日:2020-12-25

    申请号:CN202010946929.9

    申请日:2020-09-10

    Applicant: 南京大学

    Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。

    无人机躲避柱状障碍物到达目标点的最优路径训练方法

    公开(公告)号:CN112034887A

    公开(公告)日:2020-12-04

    申请号:CN202010944543.4

    申请日:2020-09-10

    Applicant: 南京大学

    Abstract: 本发明公开一种无人机躲避柱状障碍物到达目标点的最优路径训练方法,包含以下步骤:(1)构造基于空气动力学的环境模拟器;(2)使用深度神经网络初始化无人机策略模型;(3)无人机在环境模拟器中获得当前时刻的观测,并做出动作;(4)无人机与环境模拟器交互,生成并保存训练数据,对训练数据进行采样,使用训练数据通过强化学习算法学习无人机躲避柱状障碍物选择到达目标点最优路径。本发明能够使无人机获得类似人类的学习能力,在难度系数较高、环境未知、复杂且具有不确定因素的任务中完成任务。

    一种基于预测结果筛选的鲁棒数字图像标注方法

    公开(公告)号:CN107122800B

    公开(公告)日:2020-09-18

    申请号:CN201710298619.9

    申请日:2017-04-27

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于预测结果筛选的鲁棒机器学习方法,用于获得更可靠的数字图像标注结果。具体而言,本发明采用机器学习中的经典思想——最大化间隔原理,对待标注的数字图像在多种相似度度量下得到的预测结果进行筛选,选取其中间隔最大的结果作为最终预测结果输出,完成对数字图像的标注。预测结果具有大间隔理论上避免了预测结果难以区分的情况,具有不错的鲁棒性。为了显示地计算间隔,本发明采用机器学习经典损失函数来衡量预测结果的区分程度,从而得到间隔的大小。其中,损失函数指预测结果(连续值)与候选的预测标记(离散值)之间的差距,该损失越小代表了预测结果的间隔越大。

    一种基于预训练语言模型的中文文本关键信息抽取方法

    公开(公告)号:CN111444721A

    公开(公告)日:2020-07-24

    申请号:CN202010460134.7

    申请日:2020-05-27

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。

    基于模型重用的带隐私保护的跨区域通信质量预测方法

    公开(公告)号:CN110890978A

    公开(公告)日:2020-03-17

    申请号:CN201911073555.8

    申请日:2019-11-06

    Applicant: 南京大学

    Inventor: 周志华

    Abstract: 本发明公开一种基于模型重用的带隐私保护的跨区域通信质量预测方法,包括多区域数据采集步骤、模型训练步骤、模型规约计算步骤、模型及对应规约上传步骤、新区域部署及测试步骤;首先在不同区域分别收集通信数据,训练通信质量预测模型;然后计算得出适用于描述该模型能力的规约,并将训练完成的模型和对应的规约上传至区域间公开可见的模型库中;最后在新的区域上,可以直接通过对无标记数据与模型库中多模型规约的匹配,找到最适合预测当前用户通信质量的模型进行预测,从而完成对通信质量评价收集困难的新区域的预测。本发明可以解决多区域之间有用户数据隐私保护需求,不能共享数据辅助新区域模型训练的难点,实现预训练模型中蕴含知识的针对性重用,具有广泛的适用性。

Patent Agency Ranking