训练目标模型的方法及装置
    1.
    发明公开

    公开(公告)号:CN118395184A

    公开(公告)日:2024-07-26

    申请号:CN202410545088.9

    申请日:2024-04-30

    Abstract: 本说明书实施例提供一种训练目标模型的方法及装置,在训练目标模型的方法中,获取训练集,其中包括若干匹配的文本对。利用目标模型分别处理训练集中的文本,得到第一样本对应的第一匹配得分,以及第二样本对应的第二匹配得分。其中第一样本属于匹配的文本对构成的正样本,第二样本属于不匹配的文本对构成的负样本。获取利用预训练的大语言模型分别处理第一样本和第二样本而得到的第一和第二匹配概率。根据第一和第二匹配得分,以及第一和第二匹配概率,确定对比损失。基于综合损失,调整目标模型的参数。

    代码嵌入模型的训练方法及装置
    2.
    发明公开

    公开(公告)号:CN120010821A

    公开(公告)日:2025-05-16

    申请号:CN202510081504.9

    申请日:2025-01-17

    Abstract: 本说明书实施例提供一种代码嵌入模型的训练方法,包括:利用编码模块处理目标输入,得到其中各字符的输出向量。利用文本域代码共享的聚合模块,基于第一锚点句向量,对各字符的输出向量进行基于注意力机制的第一聚合处理,得到目标输入的第一特征向量。利用目标输入的类型专用的目标聚合模块,分别基于该目标聚合模块对应的目标数目的第二锚点句向量,对各字符的输出向量进行基于注意力机制的第二聚合处理,得到目标输入的第二特征向量。基于样本集中各文本和各代码片段各自的第一和第二特征向量,确定预测损失,并基于其更新第一和第二聚合模块以及第一和第二锚点句向量。

    一种基于长文本训练大语言模型的方法及装置

    公开(公告)号:CN119004107A

    公开(公告)日:2024-11-22

    申请号:CN202411123941.4

    申请日:2024-08-15

    Abstract: 本说明书实施例提供了一种基于长文本训练大语言模型的方法,所述大语言模型包括预训练的目标解码器,该方法包括:对目标长文本进行文本分割,得到多个文本块。将各个文本块输入文本编码器进行编码,得到各文本块对应的编码表征。将各个编码表征输入映射网络进行处理,得到映射至目标解码器的嵌入空间的映射表征。将多个文本块的映射表征,以及第一提示文本对应的文本表征,输入目标解码器,得到第一答案文本,其中第一提示文本用于指示大语言模型,根据映射表征,重述目标长文本。根据第一答案文本与目标长文本,确定第一损失。根据预测损失,更新文本编码器和所述映射网络,其中预测损失包含第一损失。

Patent Agency Ranking