-
公开(公告)号:CN113076433B
公开(公告)日:2022-05-17
申请号:CN202110454387.8
申请日:2021-04-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/38 , G06F16/33 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供一种具有多模态信息的检索对象的检索方法和装置,方法包括:获取单模态的查询信息,单模态的查询信息为第一文本或第一图片;当查询信息为第一文本时,将第一文本输入生成模型,生成与第一文本包含的主体对应的图像特征;将第一文本对应的文本特征和图像特征输入图文转换器,对文本特征和图像特征进行基于自注意力的融合,输出查询信息的第一查询特征向量;根据第一查询特征向量与各检索特征向量之间的相似度,确定与查询信息相匹配的检索对象;各检索特征向量分别对应于数据库中的各检索对象,任一检索特征向量为将其对应的检索对象的多模态信息输入图文转换器得到的。能够提高检索精度。
-
公开(公告)号:CN114880517B
公开(公告)日:2024-10-22
申请号:CN202210592045.7
申请日:2022-05-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/73 , G06F16/783 , G06F16/75
Abstract: 本说明书实施例提供了用于视频检索的方法及装置。在该方法中,获取待匹配视频中的视频帧图像;从视频帧图像中提取图像特征以及文本特征;根据用于表征聚类中心的中心变量对图像特征和所述文本特征进行特征融合,以得到融合特征,其中,中心变量用于将属于同一视频的不同模态的特征进行关联;以及根据融合特征在视频数据库中进行视频检索,以确定出视频数据库中与待匹配视频相匹配的视频,其中,视频数据库中存储有多个视频以及每个视频对应的视频特征。
-
公开(公告)号:CN112926700B
公开(公告)日:2022-04-12
申请号:CN202110460794.X
申请日:2021-04-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对目标图像的类别识别方法和装置,所述目标图像中包括文本,所述方法包括:识别所述目标图像中的文本内容,得到第一文本识别结果;将所述目标图像输入图像编码器,通过所述图像编码器输出所述目标图像对应的第一图像语义特征向量;将所述第一文本识别结果输入文本编码器,通过所述文本编码器输出所述第一文本识别结果对应的第一文本语义特征向量;将所述第一图像语义特征向量和所述第一文本语义特征向量输入多模融合编码器,通过所述多模融合编码器输出第一全局特征向量;根据所述第一全局特征向量,确定所述目标图像的目标类别。能够提高针对目标图像的类别识别的准确率。
-
公开(公告)号:CN113688650A
公开(公告)日:2021-11-23
申请号:CN202111117739.7
申请日:2021-09-22
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
Inventor: 黄莹 , 黄星 , 廖群伟 , 陈景东 , 王剑 , 刘家佳 , 暨凯祥 , 胡锦华 , 刘雷 , 武琳娟 , 王昊 , 章鹏 , 李莎 , 卢睿 , 杜金泉 , 冯成林 , 张谦 , 苏煜 , 林楠 , 鞠春春 , 吕炯炯 , 朱伟
Abstract: 本公开披露了一种识别图片的方法和装置。所述方法包括:接收扫码图片,所述扫码图片包含商品的营销活动对应的活动码;对所述扫码图片进行图像识别,以确定所述扫码图片是否为目标图片,所述目标图片为对所述商品的实体上的所述活动码进行扫描后得到的图片。
-
公开(公告)号:CN113076433A
公开(公告)日:2021-07-06
申请号:CN202110454387.8
申请日:2021-04-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/38 , G06F16/33 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供一种具有多模态信息的检索对象的检索方法和装置,方法包括:获取单模态的查询信息,单模态的查询信息为第一文本或第一图片;当查询信息为第一文本时,将第一文本输入生成模型,生成与第一文本包含的主体对应的图像特征;将第一文本对应的文本特征和图像特征输入图文转换器,对文本特征和图像特征进行基于自注意力的融合,输出查询信息的第一查询特征向量;根据第一查询特征向量与各检索特征向量之间的相似度,确定与查询信息相匹配的检索对象;各检索特征向量分别对应于数据库中的各检索对象,任一检索特征向量为将其对应的检索对象的多模态信息输入图文转换器得到的。能够提高检索精度。
-
公开(公告)号:CN112926700A
公开(公告)日:2021-06-08
申请号:CN202110460794.X
申请日:2021-04-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对目标图像的类别识别方法和装置,所述目标图像中包括文本,所述方法包括:识别所述目标图像中的文本内容,得到第一文本识别结果;将所述目标图像输入图像编码器,通过所述图像编码器输出所述目标图像对应的第一图像语义特征向量;将所述第一文本识别结果输入文本编码器,通过所述文本编码器输出所述第一文本识别结果对应的第一文本语义特征向量;将所述第一图像语义特征向量和所述第一文本语义特征向量输入多模融合编码器,通过所述多模融合编码器输出第一全局特征向量;根据所述第一全局特征向量,确定所述目标图像的目标类别。能够提高针对目标图像的类别识别的准确率。
-
-
-
-
-