一种数据处理方法及相关设备

    公开(公告)号:CN112288075A

    公开(公告)日:2021-01-29

    申请号:CN202011052624.X

    申请日:2020-09-29

    Inventor: 李梓超 侯璐 蒋欣

    Abstract: 本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取待处理数据以及目标神经网络模型,目标神经网络模型包括第一transformer层,第一transformer层包括第一残差支路和第二残差支路,第一残差支路包括第一注意力头,第二残差支路包括目标前馈层FFN;根据目标神经网络模型对待处理数据进行目标任务相关的处理,以得到数据处理结果,其中目标神经网络模型用于将第一注意力头的输出与第一权重值进行目标运算,得到第一残差支路的输出,和/或目标神经网络模型用于将目标FFN的输出与第二权重值进行目标运算,得到第二残差支路的输出。本实施例针对于不同的任务,设置了用于控制残差支路的输出的权重值,降低了终端设备运行目标神经网络模型的计算资源需求。

    一种数据处理方法及其装置
    12.
    发明公开

    公开(公告)号:CN120012906A

    公开(公告)日:2025-05-16

    申请号:CN202311524978.3

    申请日:2023-11-15

    Abstract: 一种数据处理方法,应用于人工智能领域,所述方法包括:根据第一数据,通过第一网络,生成第二数据;根据所述第一数据,通过第二网络,生成第三数据;其中,所述第一网络包括第一网络层,所述第二网络包括第二网络层,所述第一网络层为所述第二网络层的部分网络;根据所述第三数据,对所述第二数据进行验证。本申请将进行数据验证过程的网络(第二网络)复用了进行用于生成数据网络(中的一部分,也就是第一网络),可以降低额外的推理部署开销,且第二网络在进行验证时内存可复用第一网络的推理结果,无需额外的时延,降低了计算开销。

    用于通过量化压缩生成式预训练语言模型的方法和设备

    公开(公告)号:CN119895437A

    公开(公告)日:2025-04-25

    申请号:CN202380065100.X

    申请日:2023-06-29

    Abstract: 提供了一种由处理系统执行的用于量化神经网络模型的方法。所述方法包括:基于与所述神经网络模型相关联的权重的分布来确定缩放因子;基于所述缩放因子和与所述分布相关联的所述权重来确定量化后的权重;基于在所述神经网络模型的训练期间的所述量化后的权重,确定所述神经网络模型的训练损失;基于所述训练损失的梯度,确定所述神经网络模型的更新后的缩放因子。

    一种数据处理方法及相关设备
    14.
    发明公开

    公开(公告)号:CN116415654A

    公开(公告)日:2023-07-11

    申请号:CN202310353963.9

    申请日:2020-02-12

    Inventor: 侯璐 尚利峰 蒋欣

    Abstract: 本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取第一神经网络模型和终端设备的可用资源状态;根据所述可用资源状态确定第二神经网络模型。本申请可以根据可用资源状态确定合适的模型尺寸,并根据确定的模型尺寸选择第一神经网络模型中的一部分作为要进行数据处理的第二神经网络模型,减小了模型的大小。

    一种数据处理方法及相关设备

    公开(公告)号:CN111368993B

    公开(公告)日:2023-03-31

    申请号:CN202010088948.2

    申请日:2020-02-12

    Inventor: 侯璐 尚利峰 蒋欣

    Abstract: 本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取第一神经网络模型和终端设备的可用资源状态;根据所述可用资源状态确定第二神经网络模型。本申请可以根据可用资源状态确定合适的模型尺寸,并根据确定的模型尺寸选择第一神经网络模型中的一部分作为要进行数据处理的第二神经网络模型,减小了模型的大小。

    一种数据处理方法及相关设备
    17.
    发明公开

    公开(公告)号:CN113505193A

    公开(公告)日:2021-10-15

    申请号:CN202110611218.0

    申请日:2021-06-01

    Abstract: 本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取包括目标网络层以及目标模块的transformer模型,通过transformer模型对待处理数据进行处理,以得到数据处理结果;其中,目标模块用于对目标网络层的特征图输出进行目标运算,以得到运算结果,并将运算结果与特征图输出进行融合,以得到更新后的特征图输出。本申请在transformer模型中插入了目标模块,将目标模块生成的运算结果与输入进行融合,增加了transformer模型中目标网络层输出的特征图中携带的信息,且由于目标模块本身的参数量以及运算时需要的算力开销很小,相当于在降低模型参数量和算力开销的前提下,提高了模型的数据处理精度。

Patent Agency Ranking