一种将适配器注入预训练模型的参数高效化方法和装置

    公开(公告)号:CN117574961A

    公开(公告)日:2024-02-20

    申请号:CN202410051188.6

    申请日:2024-01-15

    Abstract: 本发明涉及一种将适配器注入预训练模型的参数高效化方法和装置,通过将一个可以用于适配各种下游任务的适配器模块注入预训练模型,所述适配器模块设置在靠近输出端,由于在训练过程中,除适配器层外的所有参数会被冻结,而适配器模块的参数靠近输出端,这样使得反向传播的距离大大减小,不仅使得计算梯度的时间大大减小,而且用于存储梯度信息所消耗的显存也会大大减小。从而使得本发明方法能够以极低的成本去适配下游任务,解决以往参数高效化方法虽然可以极大地减少参数,但其训练的时间和硬件成本并没有大幅度减小的问题。

    一种基于Inception模块的提示微调方法

    公开(公告)号:CN118780341A

    公开(公告)日:2024-10-15

    申请号:CN202410891816.1

    申请日:2024-07-04

    Abstract: 本发明涉及一种基于Inception模块的提示微调方法,通过将一个用于下游任务的提示网络插入预训练模型内部,该网络包含有随机选取预训练模型词表进行初始化的连续提示,以及与连续提示相连接的多个尺寸递增的带有上下投影的瓶颈网络,其形状类似于Inception模块,起到对单一连续提示向量的深度和宽度进行高效扩充的作用。在针对下游任务微调预训练模型时,冻结主干模型使得仅提示网络可以进行参数更新,因提示网络放置于预训练模型的中后部,在反向传播过程中距离较短任务相关信息损失少,同时优化训练时间和内存占用。

    一种将适配器注入预训练模型的参数高效化方法和装置

    公开(公告)号:CN117574961B

    公开(公告)日:2024-03-22

    申请号:CN202410051188.6

    申请日:2024-01-15

    Abstract: 本发明涉及一种将适配器注入预训练模型的参数高效化方法和装置,通过将一个可以用于适配各种下游任务的适配器模块注入预训练模型,所述适配器模块设置在靠近输出端,由于在训练过程中,除适配器层外的所有参数会被冻结,而适配器模块的参数靠近输出端,这样使得反向传播的距离大大减小,不仅使得计算梯度的时间大大减小,而且用于存储梯度信息所消耗的显存也会大大减小。从而使得本发明方法能够以极低的成本去适配下游任务,解决以往参数高效化方法虽然可以极大地减少参数,但其训练的时间和硬件成本并没有大幅度减小的问题。

Patent Agency Ranking