-
公开(公告)号:CN118861214B
公开(公告)日:2024-12-03
申请号:CN202411351960.2
申请日:2024-09-26
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F40/284 , G06F40/205 , G06N3/0464 , G06N3/084
Abstract: 本申请实施例提供了一种视觉语言模型的训练方法、文本生成方法以及相关设备,尤其涉及计算机视觉技术领域。该方法包括:将包含样本文本的样本图像文本对输入至初始视觉语言模型中;将基于样本文本分词得到多个样本子词与预设的多个初始子词进行匹配,确定与初始子词不同的样本子词为新语言下的目标子词;基于为目标子词分配对应的目标嵌入参数对目标子词进行词嵌入处理,利用词嵌入处理得到的目标嵌入特征对样本图像文本对进行视觉语言处理,得到样本输出文本;为目标子词分配对应的目标加权系数,基于目标加权系数和样本输出文本调整目标嵌入参数,得到训练后的视觉语言模型。本申请能够在计算资源受限的情况下,提高视觉语言模型的泛化能力。
-
公开(公告)号:CN118861214A
公开(公告)日:2024-10-29
申请号:CN202411351960.2
申请日:2024-09-26
Applicant: 鹏城实验室
IPC: G06F16/33 , G06F40/284 , G06F40/205 , G06N3/0464 , G06N3/084
Abstract: 本申请实施例提供了一种视觉语言模型的训练方法、文本生成方法以及相关设备,尤其涉及计算机视觉技术领域。该方法包括:将包含样本文本的样本图像文本对输入至初始视觉语言模型中;将基于样本文本分词得到多个样本子词与预设的多个初始子词进行匹配,确定与初始子词不同的样本子词为新语言下的目标子词;基于为目标子词分配对应的目标嵌入参数对目标子词进行词嵌入处理,利用词嵌入处理得到的目标嵌入特征对样本图像文本对进行视觉语言处理,得到样本输出文本;为目标子词分配对应的目标加权系数,基于目标加权系数和样本输出文本调整目标嵌入参数,得到训练后的视觉语言模型。本申请能够在计算资源受限的情况下,提高视觉语言模型的泛化能力。
-