基于隐私数据集的模型训练方法和装置

    公开(公告)号:CN114003949A

    公开(公告)日:2022-02-01

    申请号:CN202111189306.2

    申请日:2021-10-12

    Applicant: 清华大学

    Abstract: 本发明涉及多方数据合作的技术领域,提供一种基于隐私数据集的模型训练方法和装置。其中,方法包括:基于公开数据集和与公开数据集对应的真实标签,对服务器端模型进行训练;获取各个客户端发送的第一模型输出;第一模型输出是将公开数据集输入本地学习模型得到的;本地学习模型为基于隐私数据集和对应标签训练得到的;基于各第一模型输出的对应的公开数据,对服务器端模型进行训练;将公开数据集输入服务器端模型,得到第二模型输出;将第二模型输出发送至各客户端,以供各客户端基于第二模型输出和公开数据集,进行本地学习模型的再训练。如此在避免隐私数据集泄露的前提下,基于知识蒸馏和知识融合以隐私数据集为部分训练样本进行模型训练。

Patent Agency Ranking