-
公开(公告)号:CN118674054A
公开(公告)日:2024-09-20
申请号:CN202410714466.1
申请日:2024-06-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N5/045 , G06N5/04 , G06N5/022 , G06N3/08 , G06F11/36 , G06F16/332 , G06F16/33 , G06F40/295
Abstract: 本说明书实施例公开了一种模型真实性评测方法、装置及设备,该方法包括:获取用于对目标模型进行真实性评测的第一问题数据,将第一问题数据输入到目标模型中,得到第一问题数据对应的第一响应结果;提取第一问题数据中包含的命名实体,基于命名实体和第一问题数据,构建第二问题数据,第二问题数据用于触发目标模型输出针对第一问题数据的分析依据和结果;将第二问题数据输入到目标模型中,得到第二问题数据对应的模型预测结果,模型预测结果包括对第一问题数据进行分析得到的分析依据信息和第一问题数据对应的第二响应结果;基于第一响应结果和模型预测结果,确定目标模型的真实性评测结果。
-
公开(公告)号:CN116206309A
公开(公告)日:2023-06-02
申请号:CN202310187135.2
申请日:2023-02-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/70 , G06V10/774 , G06V10/764 , G06V10/74 , G06V10/40
Abstract: 本说明书实施例提供了一种图像识别方法、训练图像识别模型的方法及对应装置。主要技术方案包括:获取待识别图像;利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。本申请能够提高图像识别在细粒度图像类别上的识别准确性。
-
公开(公告)号:CN119046174B
公开(公告)日:2025-05-16
申请号:CN202411535888.9
申请日:2024-10-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/3604 , G06F18/20 , G06V10/40 , G06F40/126 , G06N3/0455 , G06N3/08
Abstract: 本说明书公开了一种模型训练以及页面检测方法、装置、介质及设备。获取样本页面图像,样本页面图像对应的导航文本以及标签文本。将样本页面图像与导航文本输入到预设的大语言模型,以使大语言模型根据导航文本,确定输出文本,输出文本中包含有目标控件在页面中所在位置的预测坐标表征。将预测坐标表征输入到待训练的坐标解码器,得到目标控件在页面中所在位置的预测坐标。根据预测坐标与实际页面坐标之间的差异,确定综合损失值,以根据综合损失值,对坐标解码器进行训练。使得训练完成的坐标解码器能够对大语言模型输出的预测坐标表征进行纠正,提高页面检测准确性。
-
公开(公告)号:CN116702131A
公开(公告)日:2023-09-05
申请号:CN202310648022.8
申请日:2023-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/55 , G06F18/214
Abstract: 本说明书实施例公开了一种数据处理方法、装置及设备,该方法包括:获取能够实现对目标模型进行迁移攻击的代理模型,以及所述代理模型的原始样本;对所述代理模型进行结构重参数化处理,得到重参数化代理模型和所述重参数化代理模型的第一模型权重;基于预设的优化搜索规则、所述重参数化代理模型和所述重参数化代理模型的第一模型权重,确定所述重参数化代理模型对应的对抗迁移性评估结果优于预设评估基准的第二模型权重,基于所述第二模型权重更新所述重参数化代理模型,得到更新后的代理模型;基于所述原始样本,通过所述更新后的代理模型,生成用于攻击所述目标模型的对抗样本。
-
公开(公告)号:CN115546810B
公开(公告)日:2023-04-11
申请号:CN202211507954.2
申请日:2022-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/412 , G06V30/414
Abstract: 本说明书实施例提供一种图像元素类别的识别方法及装置,在识别方法中,从多模态的目标图像中,提取其中包含的多个文本片段,及其对应的多个边界框。针对多个边界框形成的初始集合,迭代执行若干轮次的切分操作,其中单论切分操作根据边界框的轴向投影,将本轮当前集合划分为多个子集合,并确定各个子集合的相对排序,直至得到各个边界框的排序编号,该排序编号指示各个边界框的阅读顺序。至少将多个文本片段、多个边界框及其各自的排序编号,输入类别预测模型进行识别处理,得到目标图像中包含的各个元素的类别。
-
公开(公告)号:CN119046174A
公开(公告)日:2024-11-29
申请号:CN202411535888.9
申请日:2024-10-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/36 , G06F18/20 , G06V10/40 , G06F40/126 , G06N3/0455 , G06N3/08
Abstract: 本说明书公开了一种模型训练以及页面检测方法、装置、介质及设备。获取样本页面图像,样本页面图像对应的导航文本以及标签文本。将样本页面图像与导航文本输入到预设的大语言模型,以使大语言模型根据导航文本,确定输出文本,输出文本中包含有目标控件在页面中所在位置的预测坐标表征。将预测坐标表征输入到待训练的坐标解码器,得到目标控件在页面中所在位置的预测坐标。根据预测坐标与实际页面坐标之间的差异,确定综合损失值,以根据综合损失值,对坐标解码器进行训练。使得训练完成的坐标解码器能够对大语言模型输出的预测坐标表征进行纠正,提高页面检测准确性。
-
公开(公告)号:CN116704178A
公开(公告)日:2023-09-05
申请号:CN202310361842.9
申请日:2023-04-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/26 , G06V10/40 , G06V10/22 , G06V10/30 , G06V10/82 , G06V10/80 , G06V10/28 , G06V10/774 , G06V10/764 , G06N3/0455 , G06N3/08
Abstract: 本说明书公开了一种图像的实例分割方法、装置、存储介质和电子设备,获取待分割图像以及若干待调整定位框;将所述待分割图像输入所述编码端,以提取所述待分割图像的多尺度特征,将多尺度特征输入所述解码端,以检测所述待分割图像中的各目标,针对每个目标,将各待调整定位框作为包含噪声的定位框输入所述解码端,对各待调整定位框进行去噪,得到用于定位该目标的标准定位框,所述噪声为导致各待调整定位框相对于该目标的标准定位框存在差异的噪声,根据该目标的标准定位框和所述多尺度特征,从所述待分割图像中分割该目标。本方法通过除去图像噪声,实现对图像进行实例分割。
-
公开(公告)号:CN117095420A
公开(公告)日:2023-11-21
申请号:CN202310865101.4
申请日:2023-07-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/418 , G06V30/18 , G06V30/19 , G06V10/80
Abstract: 本说明书实施例公开了一种图像文本匹配方法,包括:对目标交互页面进行预处理,确定目标交互页面中的元素图像和OCR描述文本的初步匹配关系,得到第一图像文本对;通过预设匹配模型的视觉特征提取网络提取第一图像文本对中元素图像的视觉特征;通过匹配模型的文本特征提取网络提取第一图像文本对中OCR描述文本的第一文本特征,并提取预设分类标签的类别描述文本的第二文本特征;通过匹配模型的特征融合模块对视觉特征、第一文本特征和第二文本特征进行特征融合,得到第三文本特征;通过匹配模型的分类器对第三文本特征和视觉特征进行匹配,得到目标交互页面中元素图像和OCR描述文本的匹配关系。相应地,本发明公开了图像文本匹配装置。
-
公开(公告)号:CN118658167A
公开(公告)日:2024-09-17
申请号:CN202410703850.1
申请日:2024-05-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/19 , G06V10/82 , G06V30/164
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:获取相互匹配的第一图像文本对和带有噪声的第二图像文本对;分别对第一图像文本对中的图像数据和第二图像文本对中的图像数据进行编码处理,得到相应的第一图像表征和第二图像表征;分别将第一图像表征和第二图像表征输入到目标模型中,得到第一图像表征对应的预测结果和第二图像表征对应的预测结果;从第一图像表征对应的预测结果中获取第一预测结果,将第一预测结果对应的第一文本数据相互匹配,得到第三图像文本对;基于第三图像文本对中的不同数据之间的相似度,以及第二图像表征对应的预测结果与第一预测结果的相似度对目标模型进行模型训练。
-
公开(公告)号:CN118172223A
公开(公告)日:2024-06-11
申请号:CN202410138873.2
申请日:2024-01-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T1/00 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本说明书实施例公开了一种图像的处理方法、装置及设备,该方法包括:通过编码器对待调整的目标图像进行编码处理,得到目标图像的编码信息,通过局部动态模型基于前景图像的编码信息中的局部前景图像的编码信息,在目标图像中的背景图像的编码信息中进行语义匹配,并基于匹配到的局部背景图像的编码信息调整局部前景图像的编码信息,得到调整后的目标图像的编码信息,基于调整后的目标图像的编码信息,通过掩码感知全局动态模型中的多层感知机生成用于处理目标图像中的前景图像的掩模图像的模型内核,并通过模型内核对掩模图像进行处理,得到处理后的掩模图像的编码信息,基于上述信息,通过解码器生成目标图像对应的调整图像。
-
-
-
-
-
-
-
-
-