-
公开(公告)号:CN117541894A
公开(公告)日:2024-02-09
申请号:CN202410017186.5
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/70 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F40/289 , G06F40/216 , G06N3/047 , G06F18/214
Abstract: 本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。
-
公开(公告)号:CN117521017A
公开(公告)日:2024-02-06
申请号:CN202410010966.7
申请日:2024-01-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/25 , G06F18/2431 , G06F18/27 , G06N3/0464 , G06N3/0455
Abstract: 本说明书实施例提供了一种获取多模态特征的方法和装置,该方法包括:获取第一模态的第一信息,根据第一信息从预先设立的多模态检索数据库中获取第一模态的第一相关信息和第二模态的第二相关信息;将第一信息和第一相关信息,输入与第一模态对应的第一编码器,得到第一特征;将第二相关信息,输入与第二模态对应的第二编码器,得到第二特征;将第一特征和第二特征输入交叉编码器,得到多模态特征。
-
公开(公告)号:CN116721375A
公开(公告)日:2023-09-08
申请号:CN202310700898.2
申请日:2023-06-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 本说明书实施例提供了视频特征模型训练方法及装置、视频特征提取方法及装置。在模型训练方法中,获取视频数据,然后按照以下方式对视频特征模型进行训练,直至满足训练结束条件:将视频数据提供给所述视频特征模型,以得到多模态特征;得到各个正例视频对组中的视频帧特征与文本特征之间的正例匹配度得分;根据正例匹配度得分得到为正例视频对组所分配的正例权重;基于负例多模态特征和所述正例多模态特征以及对应的正例权重,利用当前的视频特征模型在预设代理任务中计算第一损失;以及基于第一损失对视频特征模型进行调整。
-
公开(公告)号:CN120068981A
公开(公告)日:2025-05-30
申请号:CN202510230447.6
申请日:2025-02-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/084 , G06N3/09 , G06N3/045 , G06N3/0464 , G06F40/166 , G06F18/27 , G06V10/82
Abstract: 本说明书实施例提供一种多模态大模型的训练方法及装置,提供多模态大模型的训练方案,可以对多模态大模型中各个网络模块按照功能解耦,并对解耦后的网络模块进行分阶段的渐进训练,逐渐拓展模型的模态支持能力、在各模态达到较佳性能。这种训练方式可以有效实现各模态数据的稳定训练。
-
公开(公告)号:CN117556276B
公开(公告)日:2024-05-10
申请号:CN202410044723.5
申请日:2024-01-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F40/211 , G06V10/74 , G06V20/40 , G06F18/214
Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中,利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征;根据文本的句法层级分析结果对初始文本特征进行处理,得到句法层级分析结果中的各个元素分别对应的文本特征;根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度,构建与句法层级分析结果对应的视频层级分析结果;进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征;根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度,确定文本和所述视频之间的相似度。
-
公开(公告)号:CN117556273B
公开(公告)日:2024-04-05
申请号:CN202410016072.9
申请日:2024-01-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F18/213 , G06N3/063
Abstract: 本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置,该方法包括:通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征,其中,每个处理器组包括一至多个图形处理器,每个图形处理器分别处理目标批次样本包含的至少一个样本的特征;各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度,并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中;分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度,确定各个处理器组对应的分组对比损失;根据各个处理器组对应的分组对比损失,确定整体对比损失。
-
公开(公告)号:CN117235534B
公开(公告)日:2024-02-20
申请号:CN202311508270.9
申请日:2023-11-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/22 , G06N3/08 , G06N3/045 , G06N3/0475
Abstract: 本说明书实施例涉及训练内容理解模型和内容生成模型的方法及装置,方法包括:使用目标训练集中由图像和文本构成的图文对,分别训练内容理解模型和内容生成模型,然后,针对含噪样本集进行样本处理,包括:将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中,得到若干候选文本,将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中,得到多个候选图像,将所述多个候选图像与所述第一图像进行相似度匹配,根据匹配结果确定目标文本,将所述第一图像与目标文本组成第二图文对,添加到所述目标训练集中,用于继续训练所述内容理解模型和内容生成模型。
-
公开(公告)号:CN117521759A
公开(公告)日:2024-02-06
申请号:CN202410010377.9
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/08 , G06N3/045 , G06N3/0499 , G06F40/289
Abstract: 本说明书实施例提供一种大模型的训练方法和装置,所述大模型包括具有相同第一结构的第一数目个第一网络层;方法包括:在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。
-
公开(公告)号:CN111524150B
公开(公告)日:2021-06-11
申请号:CN202010631309.6
申请日:2020-07-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种图像处理的方法,巧妙利用特征金字塔网络,根据高阶特征图和低阶特征图的不同特性,基于金字塔状排布的特征图,通过低阶特征图进行语义分割,通过高阶特征图进行实例分割,从而,在一个网络中实现全景分割,实现了一种轻量级的、计算速度较快的全景分割模式。
-
公开(公告)号:CN118917416A
公开(公告)日:2024-11-08
申请号:CN202410922451.4
申请日:2024-07-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种视频问答方法、系统及任务解析方法、模型训练方法,该视频问答方法包括:向目标视频问答模型输入待解析视频、待解答问题和候选原子视频问答任务集合,并引导目标视频问答模型基于待解析视频将待解答问题分解为待解答原子视频问答任务集合;针对待解析视频,分别确定出待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案;向目标视频问答模型输入确定出的原子视频解析答案,以由目标视频问答模型根据获得的原子视频解析答案输出对应于待解答问题的最终视频解析答案。
-
-
-
-
-
-
-
-
-