基于知识蒸馏的预训练语言模型的压缩方法及平台

    公开(公告)号:CN111767711A

    公开(公告)日:2020-10-13

    申请号:CN202010910566.3

    申请日:2020-09-02

    Abstract: 本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台,该方法首先设计一种普适的特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师的特征,重点关注小样本在教师模型中间层特征表达能力,并利用这些特征指导学生模型;然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法;最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力,设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明,将面向多任务的预训练语言模型进行自动压缩,提高语言模型的压缩效率。

    一种面向自动机器学习的自适应搜索空间生成方法与装置

    公开(公告)号:CN112381215B

    公开(公告)日:2023-08-11

    申请号:CN202011493383.2

    申请日:2020-12-17

    Abstract: 本发明公开了一种面向自动机器学习的自适应搜索空间生成方法与装置,该方法包括如下步骤:步骤一、全量收集计算机视觉领域的各类任务,形成视觉任务集合;步骤二、定义不同层次元模块,形成初始元模块搜索空间;步骤三、根据视觉任务集合和元模块集合形成视觉任务和元模块矩阵,通过概率统计计算,生成关联概率分布,用于计算目标视觉任务与已有视觉任务的相似度;步骤四、根据相似度,选取与目标视觉任务相关的视觉任务的搜索空间中的元模块,并生成面向相关视觉任务的子搜索空间;步骤五、更新视觉任务集合和元模块集合。本发明对任务与元模块图谱引入动态更新的反馈机制,有利于图谱的不断优化并增强了图谱对于其他任务的适用性。

    一种基于变异器的神经网络架构搜索方法和系统

    公开(公告)号:CN116384446A

    公开(公告)日:2023-07-04

    申请号:CN202310235078.0

    申请日:2023-03-06

    Abstract: 一种基于变异器的神经网络架构搜索方法。包括:用户定义超级网络搜索空间,实例化超级网络;获取实例化超级网络的搜索策略的分支选择,使用突变器保存策略选择结果;利用突变器对超级网络算法的逻辑计算图进行转换;训练超级网络,并根据反馈信息调整搜索策略。本发明利用变异器抽象和控制流优化,实现计算加速和显存占用优化。该技术通过分析和优化现有网络计算图逻辑,对原有计算逻辑进行优化,以减少冗余算子执行开销并且提升设备显存资源利用率,从而实现多网络整体推理训练的优化。

    分布式训练部署系统及其方法

    公开(公告)号:CN112486630A

    公开(公告)日:2021-03-12

    申请号:CN202011375644.0

    申请日:2020-11-30

    Abstract: 本发明公开了一种分布式训练部署系统。所述系统包括:从容器创建组件,基于用户输入的分布式任务创建申请包含的资源清单创建从容器集,并确认所创建的从容器处于可备用状态;主容器创建组件,基于用户输入的资源清单创建主容器,并确认所创建的主容器处于可备用状态;容器IP获取组件,获取所创建的主容器和从容器的IP,并基于所获取的IP创建JS对象简谱文件,并将该JS对象简谱文件写入所有主容器和从容器的指定位置;以及免密认证组件,通过对属于同一分布式任务的主容器和从容器配置安全密钥和认证信息,建立主容器和从容器之间的网络通讯的SSH免密认证。

    一种面向多任务语言模型的元-知识微调方法及平台

    公开(公告)号:CN112100383B

    公开(公告)日:2021-02-19

    申请号:CN202011202867.7

    申请日:2020-11-02

    Abstract: 本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。

    基于知识蒸馏的预训练语言模型的压缩方法及平台

    公开(公告)号:CN111767711B

    公开(公告)日:2020-12-08

    申请号:CN202010910566.3

    申请日:2020-09-02

    Abstract: 本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台,该方法首先设计一种普适的特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师的特征,重点关注小样本在教师模型中间层特征表达能力,并利用这些特征指导学生模型;然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法;最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力,设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明,将面向多任务的预训练语言模型进行自动压缩,提高语言模型的压缩效率。

    面向预训练标注数据不可知的图像自动标注系统和装置

    公开(公告)号:CN113128565B

    公开(公告)日:2022-05-06

    申请号:CN202110317531.3

    申请日:2021-03-25

    Abstract: 本发明公开了面向预训练标注数据不可知的图像自动标注系统,包括:获取模块和图像标注模块,及分别与所述获取模块和图像标注模块连接的模型迁移模块;所述获取模块,用于获取一组图像标注任务和待标注图像;所述模型迁移模块,用于将一组确定的预训练图像处理模型无监督迁移至适配于待标注图像域的更新后的图像处理模型,包括依次连接的模型拆分单元、信息最大化损失约束单元、聚类单元、标签空间分类单元、标签分配单元、分配更新单元和收敛单元;所述图像标注模块,用于生成与待标注图像相匹配的标注信息,并进行可视化标注。

    一种基于域-不变特征的元-知识微调方法及平台

    公开(公告)号:CN112364945B

    公开(公告)日:2021-04-16

    申请号:CN202110037237.7

    申请日:2021-01-12

    Abstract: 本发明公开了一种基于域‑不变特征的元‑知识微调方法及平台,该方法学习同类任务不同数据集上高度可转移的共有知识,即域‑不变特征,微调网络集中学得同类任务不同数据集对应的不同域上的共同域特征,快速适应任何不同的域。本发明提升了同类任务通用语言模型的参数初始化能力和泛化能力,最终微调得到同类下游任务语言模型的通用压缩架构。在元‑知识微调网络中,本发明设计域‑不变特征的损失函数,学习与域无关的通用知识,即最小化一个域‑不变特征的学习目标来驱动语言模型具有域‑不变特征的编码能力。

Patent Agency Ranking