-
公开(公告)号:CN118839789A
公开(公告)日:2024-10-25
申请号:CN202410978378.2
申请日:2024-07-19
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型训练方法、图像生成方法、装置及电子设备。在此方法中,首先获取基础图像以及第一描述文本,将基础图像以及第一描述文本输入到待训练的图像生成模型中,以使图像生成模型确定基础图像对应的图像特征以及第一描述文本对应的文本特征,并基于基础图像对应的图像特征以及第一描述文本对应的文本特征,生成目标对象以参考对象的体貌特征在指定环境中的图像,作为输出图像,根据输出图像对应的图像特征与基础图像对应的图像特征之间的特征偏差,以及输出图像所表达的图像内容的特征与第一描述文本对应的文本特征之间的相似度,确定综合损失函数值,并根据综合损失函数值,对图像生成模型进行训练。
-
公开(公告)号:CN117710510B
公开(公告)日:2024-06-11
申请号:CN202410156973.8
申请日:2024-02-04
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例公开了一种图像生成方法及装置,该方法首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,最后,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
-
公开(公告)号:CN116612057A
公开(公告)日:2023-08-18
申请号:CN202310608634.4
申请日:2023-05-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T5/50 , G06V30/146 , G06V30/19 , G06V30/18 , G06N20/00
Abstract: 本公开涉及基于自合成的图像生成方法和系统。该方法包括:对原始图像进行目标检测以确定感兴趣目标的边界框;确定所述边界框内的OCR内容;计算出能够包含所述OCR内容的最小边界框;选择掩模区域,所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;对所述掩模区域进行图像增强;以及将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。本公开还涉及一种用于交互式限流的系统和装置以及一种非瞬态处理器可读存储介质。
-
公开(公告)号:CN115546810B
公开(公告)日:2023-04-11
申请号:CN202211507954.2
申请日:2022-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/412 , G06V30/414
Abstract: 本说明书实施例提供一种图像元素类别的识别方法及装置,在识别方法中,从多模态的目标图像中,提取其中包含的多个文本片段,及其对应的多个边界框。针对多个边界框形成的初始集合,迭代执行若干轮次的切分操作,其中单论切分操作根据边界框的轴向投影,将本轮当前集合划分为多个子集合,并确定各个子集合的相对排序,直至得到各个边界框的排序编号,该排序编号指示各个边界框的阅读顺序。至少将多个文本片段、多个边界框及其各自的排序编号,输入类别预测模型进行识别处理,得到目标图像中包含的各个元素的类别。
-
公开(公告)号:CN114238744A
公开(公告)日:2022-03-25
申请号:CN202111574694.6
申请日:2021-12-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/953
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,所述方法包括:在接收到针对第一图像的相似图像检索指令的情况下,确定与所述第一图像对应的候选图像;基于预先训练的特征提取模型,获取与所述第一图像对应的第一特征向量,与所述候选图像对应的第二特征向量,所述特征提取模型为基于第二图像、所述第二图像的标签,对由特征提取算法和度量学习算法构建的特征提取模型进行训练得到,所述第二图像的标签为基于所述第二图像的标题信息和预设聚类算法确定;基于所述第一特征向量和所述第二特征向量,确定所述候选图像中与所述第一图像对应的目标图像,并将所述目标图像确定为与所述相似图形检索指令对应的检索结果。
-
公开(公告)号:CN119295999A
公开(公告)日:2025-01-10
申请号:CN202411383312.5
申请日:2024-09-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/74 , G06V10/764
Abstract: 本说明书一个或多个实施例公开了一种视频数据处理方法及装置。该方法首先获取目标视频以及与目标视频的视频类别相关的多个视频类别标签,其次,通过图文跨模态预训练模型对目标视频进行特征提取,得到目标视频的文本特征和包括多个视频帧的第二视频特征,并将目标视频的第二视频特征输入训练后的视频调制模型中,通过视频调制模型中的时序调制矩阵在预设时间段内对目标视频进行调制处理,得到目标视频对应的调制处理后的第二视频特征,最后计算调制处理后的第二视频特征和多个视频类别标签之间的第一相似度,计算调制处理后的第二视频特征和目标视频的文本特征之间的第二相似度,并基于第一相似度和第二相似度确定目标视频的视频类别。
-
公开(公告)号:CN118918201A
公开(公告)日:2024-11-08
申请号:CN202410917610.1
申请日:2024-07-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本说明书公开了一种模型训练的方法、图像生成的方法及装置,具体包括:将原始图像以及文本描述信息输入到待训练的图像生成模型中,使得图像生成模型生成包含有指定对象的目标图像。将文本描述信息输入图像生成模型中,以生成出先验图像,并确定原始图像的标签信息,使图像生成模型根据标签信息,生成重构先验图像。根据目标图像和目标图像的参照数据确定第一偏差,根据先验图像和重构先验图像确定第二偏差。以最小化第一偏差和第二偏差为优化目标,训练图像生成模型。通过本方法可以有效提高图像生成模型在进行图像创作时的扩展能力,同时又完整保护了指定对象特征信息的完整性,极大程度上提高了目标图像中指定对象的保真性。
-
公开(公告)号:CN117710510A
公开(公告)日:2024-03-15
申请号:CN202410156973.8
申请日:2024-02-04
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例公开了一种图像生成方法及装置,该方法首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,最后,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
-
公开(公告)号:CN116704178A
公开(公告)日:2023-09-05
申请号:CN202310361842.9
申请日:2023-04-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/26 , G06V10/40 , G06V10/22 , G06V10/30 , G06V10/82 , G06V10/80 , G06V10/28 , G06V10/774 , G06V10/764 , G06N3/0455 , G06N3/08
Abstract: 本说明书公开了一种图像的实例分割方法、装置、存储介质和电子设备,获取待分割图像以及若干待调整定位框;将所述待分割图像输入所述编码端,以提取所述待分割图像的多尺度特征,将多尺度特征输入所述解码端,以检测所述待分割图像中的各目标,针对每个目标,将各待调整定位框作为包含噪声的定位框输入所述解码端,对各待调整定位框进行去噪,得到用于定位该目标的标准定位框,所述噪声为导致各待调整定位框相对于该目标的标准定位框存在差异的噪声,根据该目标的标准定位框和所述多尺度特征,从所述待分割图像中分割该目标。本方法通过除去图像噪声,实现对图像进行实例分割。
-
公开(公告)号:CN115392386A
公开(公告)日:2022-11-25
申请号:CN202211058124.6
申请日:2022-08-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种模型的训练方法、装置及设备,该方法包括:获取用于训练目标模型的文本数据样本,该文本数据样本中包括第一数量的类别标签,第一数量不超过用于训练目标模型的样本的类别标签对应的第二数量,将文本数据样本输入到目标模型中,得到文本数据样本属于第二数量的类别标签中每个类别标签的概率,并基于得到的概率和第一数量的类别标签,通过目标模型对应的预设损失函数,确定文本数据样本对应的损失信息,基于文本数据样本对应的损失信息,对第一数量的类别标签进行裁剪处理,并通过反向传播算法,基于包含剩余类别标签的文本数据样本对目标模型进行模型训练。
-
-
-
-
-
-
-
-
-