一种模型训练方法、模型确定方法以及装置

    公开(公告)号:CN117764147A

    公开(公告)日:2024-03-26

    申请号:CN202311209897.4

    申请日:2023-09-18

    Abstract: 本申请提供一种人工智能领域的模型训练方法、模型确定方法以及装置,用于对基于两次量化得到的多个不同精度的量化模型进行训练,得到训练后的混合比特超网络,通过存储最高比特量化模型,从而减小存储模型占用的内存大小。该方法包括:获取第一量化模型,第一量化模型为对全精度神经网络模型的参数进行量化得到的;对第一量化模型的参数进行量化,得到第二量化模型,第一量化模型的第一量化比特大于第二量化模型的第二量化比特;通过对第一量化模型和第二量化模型进行训练,得到训练后的混合比特超网络,训练后的混合比特超网络中包括多个子网络,多个子网络包括对第一量化模型和第二量化模型进行训练得到。

    一种模型训练方法以及训练设备
    43.
    发明公开

    公开(公告)号:CN117422131A

    公开(公告)日:2024-01-19

    申请号:CN202311197434.0

    申请日:2023-09-15

    Abstract: 提供了一种模型训练方法训练设备。该方法包括:将第二输入数据输入第一模型,确定第一输出数据,以及将所述第二输入数据输入第二模型,确定第二输出数据,其中,所述第二模型至少基于第一输入数据训练获得,所述第二输入数据基于所述第一输入数据进行处理得到;根据所述第一输出数据和所述第二输出数据确定所述第一模型的第一蒸馏损失值:根据所述第一蒸馏损失值更新所述第一模型的参数。该方法中,将基于第一输入数据得到的第二输入数据作为第一模型和第二模型的输入,根据两个模型的输出更新第一模型的参数,可以使第一模型充分学习第二模型的先验知识,提升第一模型的性能。

    一种数据处理方法及其装置
    44.
    发明公开

    公开(公告)号:CN117350913A

    公开(公告)日:2024-01-05

    申请号:CN202311101338.1

    申请日:2023-08-29

    Abstract: 一种数据处理方法,应用于人工智能领域,包括:获取图像;根据尺寸范围,在所述图像上确定所述图像上的至少一个图像区域;每个所述图像区域的面积为在所述尺寸范围内确定的;所述至少一个图像区域包括多个第一图像块;根据所述第一图像上的多个第二图像块,通过图像编码器,得到特征表示;所述第二图像块与所述第一图像块不同;根据所述特征表示,对所述多个第一图像块进行预测,得到预测结果;根据所述预测结果和所述第一图像块,更新所述图像编码器。本申请在确定用于进行预测的图像区域时,图像区域的面积是灵活非固定的,令模型在学习过程中可以感知长程的文字视觉模式。

    一种模型训练方法及相关设备
    45.
    发明公开

    公开(公告)号:CN117350331A

    公开(公告)日:2024-01-05

    申请号:CN202210720114.8

    申请日:2022-06-23

    Abstract: 本申请公开了一种模型训练方法,可以应用于多层感知机、基于注意力的神经网络等。该方法包括:获取带有标签值的训练数据;以训练数据为输入,以损失函数的值小于阈值为目标对神经网络进行训练以得到第一模型;神经网络包括多个网络层以及与多个网络层中至少一个网络层相连的蒸馏层,多个网络层中的每个网络层用于输出空间特征与通道特征。损失函数包括第二损失函数,第二损失函数用于指示蒸馏层的第一输出与教师网络的第二输出之间的差异,第一输出由空间特征与通道特征处理得到。蒸馏层的输出由空间特征与通道特征处理得到,增加了空间特征与通道特征之间的融合,可以提升由第二损失函数训练得到的第一模型在推理过程中的准确性。

    一种模型的训练方法、训练数据的获取方法及相关设备

    公开(公告)号:CN116894479A

    公开(公告)日:2023-10-17

    申请号:CN202310700033.6

    申请日:2023-06-13

    Abstract: 本申请实施例公开一种模型的训练方法、训练数据的获取方法及相关设备,方法可用于人工智能领域的文本处理领域中,方法包括:将包括第三文本和第一提示的第一文本输入机器学习模型,得到机器学习模型输出的第二文本,第三文本归属于第一数据集;将第二文本输入教师模型,得到教师模型输出的第一预测结果;基于第一预测结果执行第一训练操作以对第一提示进行更新;利用教师模型对学生模型进行知识蒸馏时使用的训练数据基于训练后的第一提示得到;通过前述方案,借助教师模型的能力引导机器学习模型生成的文本逼近隐私数据,则对学生模型进行知识蒸馏时采用的训练数据与隐私数据相似,以提高训练后的学生模型在执行自然语言处理任务时的准确率。

    一种模型训练方法及相关装置
    47.
    发明公开

    公开(公告)号:CN116739071A

    公开(公告)日:2023-09-12

    申请号:CN202310552276.X

    申请日:2023-05-16

    Abstract: 一种模型的训练方法,应用于人工智能技术领域。在该方法中,先将作为训练数据的多媒体数据输入至内容描述模型,由内容描述模型输出用于描述多媒体数据中内容的文本,并对该文本执行特征提取,得到文本特征;然后将该多媒体数据输入至待训练模型中,由待训练模型提取得到多媒体特征,进而基于该多媒体数据对应的文本特征和多媒体特征来构建损失函数,实现对待训练模型的训练。通过由内容描述模型来输出针对于多媒体数据的描述文本,能够提供多媒体数据中更多的细节信息,且基于文本特征和多媒体特征来构建损失函数,能够在文本特征和多媒体特征之间实现匹配,有助于增强模型对于多媒体数据的认知,进而有效地提高模型处理多媒体数据的精度。

    一种模型的量化方法以及相关设备

    公开(公告)号:CN116362301A

    公开(公告)日:2023-06-30

    申请号:CN202310215082.0

    申请日:2023-02-25

    Abstract: 本申请实施例公开一种模型的量化方法以及相关设备,该方法可用于人工智能领域中对模型进行压缩,其中,对机器学习模型中第一激活层生成的第一激活值进行量化包括:采用第一量化步长对第一激活值中的第一子激活值进行量化,采用第二量化步长对第一激活值中的第二子激活值进行量化;机器学习模型中第一通道与第一子激活值对应,机器学习模型中第二通道与第二子激活值对应,第一量化步长和第二量化步长不同。本方案中采用不同的量化步长对不同通道所对应的子激活值进行量化,既有利于保留分布异常的通道所对应的量化后的子激活值的异常性,又有利于避免分布正常的通道所对应的量化后的子激活值的精度的损失。

    一种数据处理方法及其装置
    49.
    发明公开

    公开(公告)号:CN116309074A

    公开(公告)日:2023-06-23

    申请号:CN202310332363.4

    申请日:2023-03-23

    Abstract: 一种数据处理方法,应用于图像处理,例如新视角生成领域,方法包括:获取第一图像;根据第一图像的下采样图像的一个第一连续区域内的像素点的位置信息以及方向信息,通过NeRF网络,预测每个像素点的第一颜色值;第一颜色值用于确定第一连续区域对应的低分辨率图像;根据第二图像中与第一连续区域对应的图像区域、以及低分辨率图像,通过第一编码器处理得到第一特征表示;根据第一特征表示,通过第一解码器,得到第一低分辨率图像对应的超分图像。本申请中NeRF在每批次进行采样的像素属于连续的区域,NeRF每批次得到一个连续区域内的像素的颜色信息,因此,可以将NeRF之后连接SR网络,以生成场景低分辨率低频的新视角渲染结果。

    模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN116258727A

    公开(公告)日:2023-06-13

    申请号:CN202310183197.6

    申请日:2023-02-22

    Abstract: 本申请实施例公开了一种模型训练方法、装置、电子设备及存储介质。该方法包括:对训练图像进行分块,得到多个第一图像块;对所述多个第一图像块进行遮挡,得到多个第二图像块,其中,所述多个第二图像块为所述多个第一图像块中未被遮挡的第一图像块;将每个第二图像块的特征向量输入到所述编码网络进行编码,得到与所述多个网络块对应的多个编码特征,其中,所述多个网络块与所述多个编码特征一一对应;将每个编码特征输入到与每个编码特征对应的解码网络进行图像重构,得到与每个解码网络对应的重构图像;根据每个解码网络对应的重构图像和每个解码网络对应的监督信息,训练所述模型。本申请实施例有利于提高模型训练效率。

Patent Agency Ranking