一种基于模型输出差值矩阵知识蒸馏的图像分类方法及装置

    公开(公告)号:CN117237709A

    公开(公告)日:2023-12-15

    申请号:CN202311150654.8

    申请日:2023-09-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于模型输出差值矩阵知识蒸馏的图像分类方法及装置,包括:(1)将训练集图片分别输入待训练的学生模型和已训练的教师模型,分别输出对应的逻辑分类值;(2)分别计算每个逻辑分类值之间的两两差值,构建两个差值矩阵;(3)计算两个差值矩阵之间的区别度,作为蒸馏损失函数;(4)同时计算学生模型的逻辑分类值和图片真实分类标签的交叉熵,作为分类任务的损失函数,与蒸馏损失函数相加后得到训练学生模型的最终损失函数;(5)向前传递梯度以更新学生模型的参数,教师模型的参数保持不变;(6)重复以上步骤进行训练,并将训练完毕的学生模型进行图片分类。利用本发明,可以提高在图片分类任务上进行知识蒸馏的效果。

Patent Agency Ranking