-
公开(公告)号:CN116522142A
公开(公告)日:2023-08-01
申请号:CN202310495656.4
申请日:2023-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/25 , G06F18/24 , G06V10/774 , G06V10/80 , G06V10/764
Abstract: 本说明书的实施例提供了一种用于训练特征提取模型的方法、特征提取方法和装置。在该用于训练特征提取模型的方法中,利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件:将各个当前训练样本的图像数据和文本数据分别提供给当前图像特征提取模型和当前文本向量化模型,得到各个当前训练样本的对应图像特征和对应文本向量;将各个当前训练样本的对应文本向量以及由对应图像特征和对应文本向量拼接的结果提供给当前多模态特征融合模型,以得到各个当前训练样本的文本特征和多模态特征;分别根据多模态特征和文本特征确定第一损失值和第二损失值进而确定当前模型训练过程的总损失值;根据总损失值调整当前特征提取模型的模型参数。
-
公开(公告)号:CN117315056A
公开(公告)日:2023-12-29
申请号:CN202311594465.X
申请日:2023-11-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种视频编辑方法及装置,其中视频编辑的实现基于预训练的文生图模型,所述文生图模型包括Unet模型。该方法包括:首先,确定与原始视频的n个视频帧对应的n个加噪编码,以及,确定与引导视频编辑的描述文本对应的文本编码。然后,利用文本编码和Unet模型对n个加噪编码分别进行去噪处理,得到n个去噪编码;其中Unet模型包括接续在目标网络层之后的自注意力层,对任意第i个加噪编码进行的去噪处理包括:在Unet模型的自注意力层中,基于目标网络层针对第i个加噪编码的输出,以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后,分别对n个去噪编码进行解码处理,得到n个目标图像,用于形成编辑后的目标视频。
-
公开(公告)号:CN116310472A
公开(公告)日:2023-06-23
申请号:CN202211407806.3
申请日:2022-11-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/764 , G06V10/26 , G06V10/80 , G06V10/774
Abstract: 本说明书实施例公开了一种屏幕检测方法、屏幕检测模型训练方法、装置和计算机设备。所述屏幕检测方法包括:获取设备的屏幕图像;对屏幕图像进行分割,得到多个图像块;提取图像块的第一特征数据;对多个图像块的第一特征数据进行融合,得到第一特征数据序列;根据第一特征数据序列,对设备的屏幕进行异常检测,得到检测结果。本说明书实施例的技术方案可以提高屏幕检测的准确性。
-
公开(公告)号:CN110738576B
公开(公告)日:2021-08-06
申请号:CN201910975009.7
申请日:2019-10-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种为受损车辆生成定损文件的方法和装置,根据一个实施方式,首先获取基于受损车辆的现场视频确定的受损部件标注结果和损伤程度标注结果,其中,受损部件标注结果指示出受损部件和损伤区域,受损程度标注结果是基于受损部件标注结果,对各个受损部件的损伤程度的识别结果,接着,至少将受损部件标注结果和受损程度标注结果输入预先训练的定损模型,其中,定损模型基于多个定损人员的历史定损数据和/或多个维修人员的历史维修数据而训练,用于生成损伤维修方案,然后,基于定损模型的输出结果,为受损车辆生成定损文件。如此,可以提高车辆定损的有效性。
-
公开(公告)号:CN113038018A
公开(公告)日:2021-06-25
申请号:CN202110313504.9
申请日:2019-10-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N5/232
Abstract: 本说明书实施例提供了辅助用户拍摄车辆视频的方法和装置,一方面,对于所拍摄的视频中的单个帧,可以实时检测其作为图像的有效性。如果单个帧是有效帧,则进一步对于该当前帧作为验车视频中的帧,是否符合验车视频拍摄规则。在当前帧无效,或者不符合验车视频拍摄规则的情况下,可以及时向用户提供拍摄引导策略。如此,可以使得普通用户能够正确拍摄有效的验车视频,提高用户体验,以及验车效率。
-
-
-
-