基于本地化差分隐私的大模型训练方法、介质及系统

    公开(公告)号:CN119494122A

    公开(公告)日:2025-02-21

    申请号:CN202510074490.8

    申请日:2025-01-17

    Abstract: 本发明公开了一种基于本地化差分隐私的大模型训练方法、介质及系统,其中方法包括:用户终端设备获取历史数据,并对所述历史数据进行预处理;基于拉格朗日插值法和傅里叶级数法构造固定上下界的噪声分布函数;根据所述噪声分布函数对预处理后的历史数据进行扰动,以生成训练数据;所述用户终端设备将所述训练数据发送给服务器;所述服务器根据所述训练数据进行模型训练,以生成相应的大语言模型。能够有效提高本地化差分隐私机制获取到的数据的质量,进而提升基于该数据训练得到的模型的可用性。

    基于本地化差分隐私的大模型训练方法、介质及系统

    公开(公告)号:CN119494122B

    公开(公告)日:2025-04-25

    申请号:CN202510074490.8

    申请日:2025-01-17

    Abstract: 本发明公开了一种基于本地化差分隐私的大模型训练方法、介质及系统,其中方法包括:用户终端设备获取历史数据,并对所述历史数据进行预处理;基于拉格朗日插值法和傅里叶级数法构造固定上下界的噪声分布函数;根据所述噪声分布函数对预处理后的历史数据进行扰动,以生成训练数据;所述用户终端设备将所述训练数据发送给服务器;所述服务器根据所述训练数据进行模型训练,以生成相应的大语言模型。能够有效提高本地化差分隐私机制获取到的数据的质量,进而提升基于该数据训练得到的模型的可用性。

    基于差分隐私机制的大模型训练方法、介质及系统

    公开(公告)号:CN119494408A

    公开(公告)日:2025-02-21

    申请号:CN202510066183.5

    申请日:2025-01-16

    Abstract: 本发明公开了一种基于差分隐私机制的大模型训练方法、介质和系统,其中方法包括:S101,获取历史数据,并进行预处理,以及对预处理后的历史数据进行分组和标注,以形成训练数据集;S102,初始化大语言模型参数;S103,基于训练数据集进行训练,并计算梯度;S104,进行梯度加噪,以得到加噪梯度,并基于加噪梯度计算对应的综合不公平性指标值;S105,判断综合不公平性指标值是否处于预设取值范围内;S106,如果综合不公平指标值处于预设取值范围内,则判断当前大语言模型是否满足训练要求;如果是,则将当前大语言模型作为最终模型;如果否,则返回步骤S103。能够实现对用户隐私进行有效保护,同时,避免因使用差分隐私机制而导致的不公平现象的产生。

Patent Agency Ranking