-
公开(公告)号:CN114742199A
公开(公告)日:2022-07-12
申请号:CN202210219644.4
申请日:2022-03-08
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于注意力机制的神经网络宏架构搜索方法和系统,包括:获取神经网络架构的搜索空间,在该搜索空间中构建宏架构超网络,并在该宏架构超网络中每一层的所有候选模块的输出端添加注意力模块,得到待搜索网络;获取已标记标签的目标数据集,划分该目标数据集为训练集和验证集,基于该训练集训练该待搜索网络,得到中间搜索网络,将该验证集输入该中间搜索网络,通过中间搜索网络中每层的注意力模块,得到每层中各候选模块的注意力权重;通过仅保留该中间搜索网络中每层除注意力权重最大的候选模块,得到该目标数据集的搜索结果。由此本发明能够增加搜索到的神经网络宏网络的多样性,并提升网络结构的性能。
-
公开(公告)号:CN116310577A
公开(公告)日:2023-06-23
申请号:CN202310314936.0
申请日:2023-03-28
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明提供了一种图像分类模型的训练方法和训练系统,方法包括:A1、获取构建的超网络,超网络包括多个网络层和预测层,所述超网络的网络层包括多个候选操作和用于评价每个候选操作的重要性的基于自注意力机制的指示网络;A2、利用训练集对超网络进行图像分类训练,其中包括对每个候选的网络结构和指示网络的训练;A3、将验证集的图像样本输入经步骤A2训练的超网络中以得到指示网络根据验证集评价的各网络层的每个候选操作的重要性;A4、根据验证集评价的各网络层的每个候选操作的重要性,从超网络的每个网络层选择重要性较高的候选操作与预测层构建目标网络;A5、利用训练集和/或验证集对目标网络进行图像分类训练,得到经训练的图像分类模型。
-
公开(公告)号:CN116310578A
公开(公告)日:2023-06-23
申请号:CN202310314946.4
申请日:2023-03-28
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提供了一种在搜索阶段无需训练的图像分类模型的构建方法,包括:在模型结构的搜索阶段,执行步骤A1‑A4:A1、从预设的搜索空间所包含的多个神经网络模型结构中采样出多个待选的模型结构,A2、对每个待选的模型结构,利用评价集中的每个图像样本分别在该待选的模型结构进行一次正向传播和反向传播,得到待选的模型结构下各图像样本对应的每个参数的梯度,A3、根据每个参数的梯度,确定每个待选的模型结构的信噪比代理指标,A4、根据所有待选的模型结构的信噪比代理指标,从多个待选的模型结构选定目标网络模型;在训练阶段,根据从图像分类数据集中提取的训练集对目标网络模型进行图像分类训练,得到经训练的图像分类模型。
-
公开(公告)号:CN114626506A
公开(公告)日:2022-06-14
申请号:CN202210219650.X
申请日:2022-03-08
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于注意力机制的神经网络单元结构搜索方法和系统,包括:在搜索空间中构建宏架构超网络,且宏架构超网络中每一层单元结构为有向无环图,有向无环图中节点间通过边相连接,每条边代表搜索空间中多个候选操作的组合;对单元结构中每条边的所有候选操作输出特征图之后添加注意力模块,得到待搜索网络;使用已标记标签的数据集,训练待搜索网络,且在训练过程中逐步删除中间搜索网络单元结构中每条边上注意力权重最小的候选操作,直到训练达到预设的迭代次数,剔除当前待搜索网络中所有注意力模块,得到数据集的神经网络单元结构搜索结果。本发明既能考虑操作之间的相互影响,又能保留各个操作直至搜索的最后步骤。
-
-
-