-
公开(公告)号:CN117350331A
公开(公告)日:2024-01-05
申请号:CN202210720114.8
申请日:2022-06-23
Applicant: 华为技术有限公司
IPC: G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种模型训练方法,可以应用于多层感知机、基于注意力的神经网络等。该方法包括:获取带有标签值的训练数据;以训练数据为输入,以损失函数的值小于阈值为目标对神经网络进行训练以得到第一模型;神经网络包括多个网络层以及与多个网络层中至少一个网络层相连的蒸馏层,多个网络层中的每个网络层用于输出空间特征与通道特征。损失函数包括第二损失函数,第二损失函数用于指示蒸馏层的第一输出与教师网络的第二输出之间的差异,第一输出由空间特征与通道特征处理得到。蒸馏层的输出由空间特征与通道特征处理得到,增加了空间特征与通道特征之间的融合,可以提升由第二损失函数训练得到的第一模型在推理过程中的准确性。