基于多层级知识蒸馏预训练语言模型自动压缩方法及平台

    公开(公告)号:CN112241455B

    公开(公告)日:2021-05-04

    申请号:CN202011498328.2

    申请日:2020-12-17

    Abstract: 本发明公开了一种基于多层级知识蒸馏的预训练语言模型自动压缩方法及平台,所述方法包括如下步骤:步骤一、构建多层级知识蒸馏,在自注意力单元、隐藏层状态、嵌入层三个不同层级上蒸馏大模型的知识结构;步骤二、训练元学习的知识蒸馏网络,生成多种预训练语言模型的通用压缩架构;步骤三、基于进化算法搜索最佳压缩结构。首先,研究基于元学习的知识蒸馏生成多种预训练语言模型的通用压缩架构;其次,在已训练好的元学习网络基础上,通过进化算法搜索最佳压缩结构,由此得到与任务无关的预训练语言模型的最优通用压缩架构。

    一种面向多任务语言模型的元-知识微调方法及平台

    公开(公告)号:CN112100383B

    公开(公告)日:2021-02-19

    申请号:CN202011202867.7

    申请日:2020-11-02

    Abstract: 本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。

    基于多层级知识蒸馏预训练语言模型自动压缩方法及平台

    公开(公告)号:CN112241455A

    公开(公告)日:2021-01-19

    申请号:CN202011498328.2

    申请日:2020-12-17

    Abstract: 本发明公开了一种基于多层级知识蒸馏的预训练语言模型自动压缩方法及平台,所述方法包括如下步骤:步骤一、构建多层级知识蒸馏,在自注意力单元、隐藏层状态、嵌入层三个不同层级上蒸馏大模型的知识结构;步骤二、训练元学习的知识蒸馏网络,生成多种预训练语言模型的通用压缩架构;步骤三、基于进化算法搜索最佳压缩结构。首先,研究基于元学习的知识蒸馏生成多种预训练语言模型的通用压缩架构;其次,在已训练好的元学习网络基础上,通过进化算法搜索最佳压缩结构,由此得到与任务无关的预训练语言模型的最优通用压缩架构。

    一种面向多任务语言模型的元-知识微调方法及平台

    公开(公告)号:CN112100383A

    公开(公告)日:2020-12-18

    申请号:CN202011202867.7

    申请日:2020-11-02

    Abstract: 本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。

Patent Agency Ranking