一种面向环境变化的无监督迁移学习图像分类方法

    公开(公告)号:CN115035330B

    公开(公告)日:2025-02-18

    申请号:CN202210461879.4

    申请日:2022-04-28

    Applicant: 南京大学

    Inventor: 黎铭 孙辉 周志华

    Abstract: 本发明公开了一种面向环境变化的无监督迁移学习图像分类方法,获取待分类图片,若不存在面向应用环境的模型,则从学习环境迁移学习新模型;收集训练数据,初始化模型;在伪标签生成器上,计算有标签样本的分类损失以及学习环境和应用环境数据的分布偏移损失,并生成部分伪标签;设计多个联合分类器输出二维联合概率同时预测图片主任务和自监督任务标签,计算联合分类器的分类损失;在联合分类器输出中,对自监督任务标签的边际概率积分,得到不同的概念标签;计算应用环境样本的不同概念标签间的一致性损失;累加所有损失,用梯度反向传播更新参数;迭代训练至最大迭代次数;用所有联合分类器对待分类图片的概念标签均值来预测。

    基于持续策略重振的离线到在线可泛化强化学习方法和装置

    公开(公告)号:CN118493381A

    公开(公告)日:2024-08-16

    申请号:CN202410569772.0

    申请日:2024-05-09

    Applicant: 南京大学

    Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。

    一种根据用户需求对模型进行拆解复用的方法

    公开(公告)号:CN118466940A

    公开(公告)日:2024-08-09

    申请号:CN202410600600.5

    申请日:2024-05-15

    Applicant: 南京大学

    Abstract: 本发明公开一种根据用户需求对模型进行拆解复用的方法,当用户无法获取到与需求相符合的模型时,首先对用户的需求进行分解,变成多个相互独立的子任务,然后对每个子任务,检索并获取一个包含能子任务的能力的模型;对每个获取到的模型,从模型的每一层中挑选出和该子任务相关的神经元,组成新的层,并通过适应损失对该新层进行参数更新;在所有层都进行了相同的操作以后,把这些层组合起来构成对应该子任务的模型,并通过组合损失对该模型进行参数更新;在每个用户需要的子任务都有对应的模型了以后,将这些模型组合起来,通过打包损失对组合后的模型进行参数更新,从而获得与用户需求相应的模型。

    一种面向实时订单数据的无人机物流配送全局规划方法

    公开(公告)号:CN113205220B

    公开(公告)日:2024-06-25

    申请号:CN202110517463.5

    申请日:2021-05-12

    Applicant: 南京大学

    Inventor: 黎铭 曹阳

    Abstract: 本发明公开一种面向实时订单数据的无人机物流配送全局规划方法,首先接收新触发的实时订单数据,并提取当前无人机执行状态,对每架无人机预分配订单;之后根据深度学习模型指针网络,融合外部信息生成部分动作序列,并用启发式算法两元素优化进行优化;再使用贪心插入的方法,构造出中间动作序列,并用模拟退火框架进行可行性验证;之后根据预规划的执行动作序列提取出环境状态,传递给通过深度强化学习框架PPO训练出的订单分配智能体进行订单分配;订单分配之后,根据订单分配结果、预规划计算的动作序列,提取出各无人机执行订单的方案,并将无人机的配送方案发布出来。本发明适用于订单不断生成的动态情境。

    一种基于知识库和多步提示的预训练大模型代码生成方法

    公开(公告)号:CN116594601A

    公开(公告)日:2023-08-15

    申请号:CN202310575020.0

    申请日:2023-05-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于知识库和多步提示的预训练大模型代码生成方法。首先获得新的问题描述与其对应的测试用例集合,如果不存在算法生成模型,获取大量历史问题描述和测试用例集合,代入提示模板并输入预训练模型生成算法描述,由人类数据标记员对算法描述根据其与知识库的符合程度进行打分和排序,构造训练集合训练知识奖赏模型,作为后续训练过程中的奖赏。将问题描述输入算法生成模型,生成算法描述;将算法描述输入知识奖赏模型评估与知识库的符合程度和代码生成模型评估测试样例通过率,两者作为算法生成模型的优化目标,更新模型参数直至训练误差低于预设阈值。测试过程中生成算法描述与代码解决方案,重复该过程直至代码通过全部测试用例。

    基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

    公开(公告)号:CN113467515B

    公开(公告)日:2023-03-10

    申请号:CN202110828301.3

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。

    一种基于缺陷报告分析的缺陷源代码定位方法

    公开(公告)号:CN105930277B

    公开(公告)日:2018-12-11

    申请号:CN201610543653.3

    申请日:2016-07-11

    Applicant: 南京大学

    Inventor: 黎铭 霍轩 周志华

    Abstract: 本发明公开一种基于缺陷报告分析的缺陷源代码定位方法,首先获得新的待检查缺陷报告;如果不存在缺陷定位模型,建立缺陷定位模型。建立缺陷定位模型:获取大量历史缺陷报告、源代码和缺陷定位标记,构造训练集合;初始化缺陷定位模型;利用当前模型,提取训练集合缺陷报告和源代码的统一特征;计算当前模型的缺陷定位训练误差;若缺陷定位模型的训练误差低于预设阈值,模型训练完成,否则更新缺陷定位模型权重参数,继续训练。利用模型提取待检查的缺陷报告和源代码的统一特征并利用统一特征定位包含缺陷的源代码模块;输出定位到的缺陷源代码模块;若还有缺陷报告尚未检查,继续获取并分析新的待检查缺陷报告,否则缺陷定位过程结束。

    一种基于适配器微调的自适应模型复用方法

    公开(公告)号:CN116579410A

    公开(公告)日:2023-08-11

    申请号:CN202310596998.5

    申请日:2023-05-24

    Applicant: 南京大学

    Inventor: 黎铭 孙宇熙

    Abstract: 本发明公开一种基于适配器微调的自适应模型复用方法。以计算机视觉领域的目标检测任务为例,首先获取在大规模图像数据集上预训练的模型作为原始模型,根据预训练模型结构为其设置候选适配器。再使用泰勒展开方法计算在网络不同位置添加适配器对目标域带有定位边界框与类别标记图像的全局增益,以此实现自适应的适配器配置。在微调阶段,重新计算不同位置的适配器对带标注图像样本的全局增益。冻结原始模型参数,用梯度反向传播以全局增益softmax加权后的学习率更新适配器参数,最后将微调后的模型在下游任务上复用,定位图像中的物体并给出类别预测。本发明基于全局增益实现了适配器的自适应配置,实现了在目标检测任务上更准确的物体定位和类别预测。

    一种基于抄袭者-检测器对抗的软件克隆检测方法

    公开(公告)号:CN116578336A

    公开(公告)日:2023-08-11

    申请号:CN202310599633.8

    申请日:2023-05-24

    Applicant: 南京大学

    Inventor: 黎铭 徐镱铭

    Abstract: 本发明公开一种基于抄袭者‑检测器对抗的软件克隆检测方法,首先获得新的待检测的代码对;如果不存在训练完成的克隆检测模型,利用于抄袭者‑检测器对抗训练的软件克隆检测方法建立克隆检测模型:构造训练集合;初始化克隆检测模型和抄袭者模型;利用抄袭者模型,根据对原代码的修改,得到新生代码对;计算抄袭者的奖励和损失,优化抄袭者修改策略的权重参数;利用检测模型,对原代码对进行不同的裁剪,得到两个子代码段的集合,进行代码表示,计算全局相似度;计算检测模型在训练集上的损失,根据损失判断是否完成模型训练。利用克隆检测模型分别提取两段代码的语义特征;计算两个语义特征之间的相似度;输出代码对克隆检测的结果。

Patent Agency Ranking