基于预训练大模型的适配器搜索方法和装置

    公开(公告)号:CN119830978A

    公开(公告)日:2025-04-15

    申请号:CN202510019544.0

    申请日:2025-01-07

    Inventor: 陆顺 胡瑜

    Abstract: 本发明提出一种基于预训练大模型的适配器搜索方法,包括:根据目标数据集选取预训练大模型;构建对适配器深度、宽度和通道组合的搜索空间;基于该搜索空间,构建包含所有可学习的低秩矩阵的网络为超网,对该超网进行采样预训练;使用进化算法基于该超网的预训练权重搜索匹配该目标数据集的最终适配器。本发明设计了一个层次化的适配器搜索空间,使得适配器在各种下游任务均具有良好的泛化能力,并采用了一种基于探索和利用的超网采样训练机制,来平衡不同通道的训练,从而确保通道间的公平对比并实现更快的收敛速度,改善了通道收敛性,更好地平衡了通道的探索和利用并成功搜索到了能适应不同下游任务的适配器结构。

    一种基于神经网络架构搜索的图片分类方法与系统

    公开(公告)号:CN112381208B

    公开(公告)日:2023-10-31

    申请号:CN202011268902.5

    申请日:2020-11-13

    Inventor: 陆顺 胡瑜

    Abstract: 本发明提出一种深度渐进且逐步寻优的神经网络架构搜索方法与系统,包括:步骤1、构建包含和不包含下采样操作的第一搜索单元和第二搜索单元,堆叠第一搜索单元和第二搜索单元,形成超网;步骤2、通过梯度下降法搜索得到超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以操作结果分别更新第一搜索单元和第二搜索单元,得到第一更新单元和第二更新单元,堆叠第一更新单元和第二更新单元,得到单模型;步骤3、判断单模型深度是否小于目标模型深度,若是,将预设递增数量的第一搜索单元堆叠至单模型,形成超网,再次执行步骤2,否则将单模型作为神经网络搜索结果。

    采用混合精度量化与知识蒸馏的神经网络训练方法及系统

    公开(公告)号:CN113313250B

    公开(公告)日:2023-11-24

    申请号:CN202110521580.9

    申请日:2021-05-13

    Inventor: 陆顺 胡瑜

    Abstract: 本发明提出一种采用混合精度量化与知识蒸馏的神经网络训练方法,包括:获取已知数据构建为数据集;根据该超参数,对神经网络各层的卷积操作设置多个精度量化位宽并构建超网,将该超网的所有子模型划分至第一模型池和第二模型池;从该第一模型池和该第二模型池中取出多个子模型进行训练和验证;将验证精度高于训练阈值的子模型放入该第一模型池,剩余的子模型放入该第二模型池;进行多轮迭代,直到该第一模型池的更新率小于更新阈值;对该第一模型池中的子模型进行蒸馏训练,得到任务模型。本发明还提出一种神经网络训练系统,以及一种数据处理装置。

    一种深度渐进且逐步寻优的神经网络架构搜索方法与系统

    公开(公告)号:CN112381208A

    公开(公告)日:2021-02-19

    申请号:CN202011268902.5

    申请日:2020-11-13

    Inventor: 陆顺 胡瑜

    Abstract: 本发明提出一种深度渐进且逐步寻优的神经网络架构搜索方法与系统,包括:步骤1、构建包含和不包含下采样操作的第一搜索单元和第二搜索单元,堆叠第一搜索单元和第二搜索单元,形成超网;步骤2、通过梯度下降法搜索得到超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以操作结果分别更新第一搜索单元和第二搜索单元,得到第一更新单元和第二更新单元,堆叠第一更新单元和第二更新单元,得到单模型;步骤3、判断单模型深度是否小于目标模型深度,若是,将预设递增数量的第一搜索单元堆叠至单模型,形成超网,再次执行步骤2,否则将单模型作为神经网络搜索结果。

    采用混合精度量化与知识蒸馏的神经网络训练方法及系统

    公开(公告)号:CN113313250A

    公开(公告)日:2021-08-27

    申请号:CN202110521580.9

    申请日:2021-05-13

    Inventor: 陆顺 胡瑜

    Abstract: 本发明提出一种采用混合精度量化与知识蒸馏的神经网络训练方法,包括:获取已知数据构建为数据集;根据该超参数,对神经网络各层的卷积操作设置多个精度量化位宽并构建超网,将该超网的所有子模型划分至第一模型池和第二模型池;从该第一模型池和该第二模型池中取出多个子模型进行训练和验证;将验证精度高于训练阈值的子模型放入该第一模型池,剩余的子模型放入该第二模型池;进行多轮迭代,直到该第一模型池的更新率小于更新阈值;对该第一模型池中的子模型进行蒸馏训练,得到任务模型。本发明还提出一种神经网络训练系统,以及一种数据处理装置。

Patent Agency Ranking