基于参数高效微调的大型语言模型训练方法

    公开(公告)号:CN119578545A

    公开(公告)日:2025-03-07

    申请号:CN202411629653.6

    申请日:2024-11-15

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于参数高效微调的大型语言模型训练方法。大型语言模型训练方法包括:针对训练对象的大型语言模型,将大型语言模型划分为客户端预训练模型和服务器端预训练模型两部分;联合客户端预训练模型和服务器端预训练模型共同进行并行协作训练,在训练过程中,采用参数高效微调技术来对客户端预训练模型和服务器端预训练模型进行并行训练;待训练完成后,采用模型聚合的方法,将客户端预训练模型和服务器端预训练模型合并起来;重复上述步骤,直至作为训练对象的大型语言模型收敛为止。本发明的大型语言模型训练方法基于分割联邦学习框架,并且结合了FL的并行训练优势和SL的模型分割优势,大大提高了训练效率。

    一种LEO卫星网络及其联邦学习模型构建方法

    公开(公告)号:CN117650833A

    公开(公告)日:2024-03-05

    申请号:CN202311687480.9

    申请日:2023-12-11

    Applicant: 复旦大学

    Abstract: 本发明将联邦学习模型与低地球轨道卫星网络进行了结合,提出了一种在低地球轨道卫星网络上实现联邦学习的通用联邦学习框架FedSN。FedSN由两个主要组成部分组成:子结构方案和伪同步模型聚合。子结构方案包括子结构定制化、分发和聚合方法,分别解决资源限制、训练不平衡和组内模型陈旧等问题。伪同步模型聚合策略将模型权重之间的差异纳入到权重函数中,并开发基于缓冲区的聚合方法,以减轻组间模型陈旧问题。广泛的实验结果表明,FedSN框架优于最先进的基准。本发明展示提升了在LEO卫星网络上部署FedSN的潜力。

    一种基于区域多类POI数量的餐饮实体店选址方法

    公开(公告)号:CN118469637A

    公开(公告)日:2024-08-09

    申请号:CN202310082744.1

    申请日:2023-02-08

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于区域多类POI数量的餐饮实体店选址方法,包括以下步骤:步骤S1:选定待开设店铺所在的行政区,对该行政区进行网格划分,导出每个网格的中心点经纬度坐标;步骤S2:将每一个中心点的经纬度坐标带入地图软件的周边搜索的API接口中,按照圆形区域对每一个中心点坐标所在预定的范围内进行搜索,爬取每个圆形区域内23个大类的POI数据。本发明可以在根据不同类型的POI数据,通过机器学习的方法,得出该实体店所在区域内餐饮类POI数据的参考数量,将计算得出的餐饮类POI数量与实际存在的餐饮类POI数量进行对比,可以很直观的反应出该实体店周边的竞争压力情况,提供一个更加合理的选址方案。

    一种参数高效大语言微调联邦学习框架

    公开(公告)号:CN118504526A

    公开(公告)日:2024-08-16

    申请号:CN202410573471.5

    申请日:2024-05-10

    Applicant: 复旦大学

    Abstract: 本发明提供一种参数高效大语言微调联邦学习框架,包括以下步骤:对不同边缘云的LoRA适配器进行建模;根据不同的权重在LoRA适配器上具有不同的平均性能,所以利用奇异值来量化权重的重要性,因此在每轮使用N个边缘云独立训练LoRA适配器之前,对每个可训练权重的LoRA适配器中的BA矩阵使用矩阵奇异值进行分解;根据权重的重要性对异构LoRA适配器进行配置;使用不同的量化位数对预训练模型进行量化,并且仅在执行矩阵乘法时对预训练模型进行高精度的反量化,其中,根据边缘云的内存预算将预训练模型量化为最大量化位数;本发明具有以下有益效果:本发明确定出了最佳的微调模型结构,以提高微调LLM的性能,并适应异构和资源受限的边缘云。

Patent Agency Ranking