-
公开(公告)号:CN113283426B
公开(公告)日:2024-07-26
申请号:CN202110478018.2
申请日:2021-04-30
Applicant: 南京大学
IPC: G06V10/25 , G06V10/82 , G06N3/0464
Abstract: 本发明公开一种基于多目标神经网络搜索的嵌入式目标检测模型生成方法,选择嵌入式目标检测模型的基础检测结构并设定搜索空间;构建包含搜索空间中所有子网络的超网络;将训练好的超网络联合设定好的检测头在目标检测数据集上进行微调;在搜索前通过批量枚举搜索空间中的子网络,自动构建可推理的模型,并将模型部署到嵌入式设备上进行运行时间的测试,建立搜索空间中子网络结构编码与运行时延之间的速查表;使用强化学习的方法展开搜索;搜索过程使得网络结构朝着多个目标的方向优化;维护一个帕累托最优解集来获得符合多目标要求的目标检测模型;选择帕累托最优解集中的元素,将其对应的检测网络在嵌入式平台上进行编译部署。
-
公开(公告)号:CN116796872A
公开(公告)日:2023-09-22
申请号:CN202210226729.5
申请日:2022-03-09
Applicant: 南京大学 , 北京三快在线科技有限公司
IPC: G06Q10/04 , G06Q10/0631 , G06Q10/083 , G06Q30/0601
Abstract: 本公开涉及一种模型训练、信息处理方法、装置、介质及电子设备。方法包括:获取训练数据,包括参考运力在第一时段的第一状态信息、第一奖励信息及第二时段的第二状态信息;根据第一状态信息和第一奖励信息,通过目标模型预测第一时段的第一接单响应信息和第二时段的第二奖励信息;根据第二状态信息和第二奖励信息,通过模型预测第二时段的第二接单响应信息;以目标置信度参数与第一联合概率分布的乘积最小化为目标,对模型进行参数更新;若不满足训练截止条件,则返回获取训练数据的步骤;否则,获得奖励预测模型。这样,能在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型,使下游求解出正确的决策动作。
-
公开(公告)号:CN116430732A
公开(公告)日:2023-07-14
申请号:CN202310413177.3
申请日:2023-04-17
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开一种基于强化学习的换热站控制方法,本发明主要由两部分组成,第一部分为基于生成对抗式的方法学习换热站的仿真环境模型,第二部分则使用PPO强化学习的技术进行换热真的控制策略训练,从而得到一个很好的换热站控制方法。基于换热站的历史数据构建换热站的仿真环境模型,并采用生成对抗式的方法来学习这个仿真环境模型,使得仿真环境能够在历史数据没有出现过的状态下也能获得很好的仿真效果。接着利用生成对抗结构学到的仿真环境模型去用PPO强化学习技术训练控制策略,由于PPO强化学习技术的训练过程较为稳定、训练过程方差较小,得到的控制策略能够很好的完成设计奖励函数给出的控制目标,并且控制结果温度不会出现滞后。
-
公开(公告)号:CN113721655B
公开(公告)日:2023-06-16
申请号:CN202110988096.7
申请日:2021-08-26
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种控制周期自适应的强化学习无人机稳定飞行控制方法。本发明针对无人机飞行时灵敏性与稳定性的权衡问题,提出了基于强化学习的无人机自适应周期的控制方法。共包含以下关键环节:(1)构造动作增广的策略模型,在策略模型的动作输出中加入是否需要执行该动作的标志位。(2)在环境中运行策略模型时,若标志位为“是”,则执行策略模型输出的动作,并计一定的动作惩罚值;否则不执行该动作,且无惩罚值。(3)使用强化学习算法,通过策略模型与环境的交互,以最大化环境奖励并最小化动作惩罚值为目标,对策略模型进行优化。本发明使得无人机能够对其控制周期进行自适应的调整,同时保证了无人机的性能与飞行稳定性。
-
公开(公告)号:CN113276883B
公开(公告)日:2023-04-21
申请号:CN202110464610.7
申请日:2021-04-28
Applicant: 南京大学
Abstract: 本发明公开一种基于动态生成环境的无人车行驶策略规划方法及实现装置,(1)在模拟器中构建无人驾驶环境。(2)初始化强化学习参数及网络策略模型。(3)与环境交互,收集无人驾驶车辆当前状态,由策略网络进行动作采样,在模拟器中执行动作并进入新的状态。(4)收集车辆在一段生成环境中的累积奖励以及是否成功完成任务,并建立一段新的生成环境。(5)对于车辆的行驶策略,在重复(3)中的操作采集一定强化学习样本后,进行强策略迭代。(6)对于车辆所面临的环境,将由(4)中所述的模式不断生成,并基于对是否成功以及累积奖励的收集,抽取那些失败道路以及低累积奖励道路的环境参数,在这些路段进行反复多次训练。(7)持续上述步骤训练直到策略收敛。
-
公开(公告)号:CN111444721B
公开(公告)日:2022-09-23
申请号:CN202010460134.7
申请日:2020-05-27
Applicant: 南京大学
IPC: G06F40/295 , G06F40/30 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。
-
公开(公告)号:CN113160562B
公开(公告)日:2022-04-22
申请号:CN202110337809.3
申请日:2021-03-30
Applicant: 南京大学
IPC: G08G1/01 , G08G1/0967 , G06N3/00 , G06N20/00
Abstract: 本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。
-
公开(公告)号:CN114003393A
公开(公告)日:2022-02-01
申请号:CN202111639857.4
申请日:2021-12-30
Applicant: 南京大学
Abstract: 本发明公开了一种基于双层树的提高集成型自动机器学习运行性能的方法和系统,对于模型选择和超参数调优两个过程采用了双层树式的逻辑关系。通过极限区域上置信界算法对双层树式的上下两层进行迭代计算。根据机器学习模型库中各模型的初始化分数,自适应地将各模型分配到合适的线程上,有前景的模型将得到更多的初始线程分配。以不同模型和不同超参数配置下的评估指标的分数和运行时间为依据,选择其中若干个模型,基于选中的模型生成集成模型。本发明使自动机器学习方法可以在相同的计算资源下得到更好的最终效果。
-
公开(公告)号:CN112114592B
公开(公告)日:2021-12-17
申请号:CN202010945731.9
申请日:2020-09-10
Applicant: 南京大学
Abstract: 本发明公开了一种实现无人机自主穿越可移动框形障碍物的方法,步骤如下:(1)构造环境模拟器;(2)确定无人机与模拟器环境交互的状态、动作、转移和奖励。将穿越可移动框形障碍物的任务设计成一个强化学习智能体与环境交互的问题,用强化学习算法学习无人机穿越框形障碍的飞行策略;(3)改变可移动框形障碍物截面积的大小和位移幅度,设置从易到难的课程学习,逐步提升无人机的越障飞行策略;(4)将在环境模拟器中训练收敛后的无人机穿越框形障碍物的飞行策略迁移到真实无人机上;(5)利用迁移到真机上的飞行策略实现无人机自主穿越可移动门框障碍物。本发明可实现无人机准确检测障碍物的位置,控制飞行状态,平稳通过障碍区域。
-
公开(公告)号:CN113467515A
公开(公告)日:2021-10-01
申请号:CN202110828301.3
申请日:2021-07-22
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。
-
-
-
-
-
-
-
-
-