-
公开(公告)号:CN117556276B
公开(公告)日:2024-05-10
申请号:CN202410044723.5
申请日:2024-01-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F40/211 , G06V10/74 , G06V20/40 , G06F18/214
Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中,利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征;根据文本的句法层级分析结果对初始文本特征进行处理,得到句法层级分析结果中的各个元素分别对应的文本特征;根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度,构建与句法层级分析结果对应的视频层级分析结果;进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征;根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度,确定文本和所述视频之间的相似度。
-
公开(公告)号:CN117521017B
公开(公告)日:2024-04-05
申请号:CN202410010966.7
申请日:2024-01-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/25 , G06F18/2431 , G06F18/27 , G06N3/0464 , G06N3/0455
Abstract: 本说明书实施例提供了一种获取多模态特征的方法和装置,该方法包括:获取第一模态的第一信息,根据第一信息从预先设立的多模态检索数据库中获取第一模态的第一相关信息和第二模态的第二相关信息;将第一信息和第一相关信息,输入与第一模态对应的第一编码器,得到第一特征;将第二相关信息,输入与第二模态对应的第二编码器,得到第二特征;将第一特征和第二特征输入交叉编码器,得到多模态特征。
-
公开(公告)号:CN117556276A
公开(公告)日:2024-02-13
申请号:CN202410044723.5
申请日:2024-01-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F40/211 , G06V10/74 , G06V20/40 , G06F18/214
Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中,利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征;根据文本的句法层级分析结果对初始文本特征进行处理,得到句法层级分析结果中的各个元素分别对应的文本特征;根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度,构建与句法层级分析结果对应的视频层级分析结果;进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征;根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度,确定文本和所述视频之间的相似度。
-
公开(公告)号:CN116958868A
公开(公告)日:2023-10-27
申请号:CN202310906058.1
申请日:2023-07-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V20/62 , G06V10/74 , G06V10/774 , G06V10/80 , G06N3/0464 , G06N3/08
Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该用于确定文本和视频之间的相似度的方法中,将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型,得到对应的词符特征序列和图像特征序列;根据各个词符特征与各个图像特征之间的相似度确定相关词符特征‑图像特征对;针对各个相关词符特征‑图像特征对,对该词符特征与该图像特征之间的相似度和所确定的该图像特征对应的相近图像特征与词符特征序列之间的相似度进行聚合,生成相近图像约束相似度;以及基于所得到的相近图像约束相似度,确定文本视频对中的文本和视频之间的相似度。
-
公开(公告)号:CN116881520A
公开(公告)日:2023-10-13
申请号:CN202310896764.2
申请日:2023-07-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9035 , G06F16/903 , G06F18/25 , G06V20/40 , G06F40/30
Abstract: 本说明书的实施例提供基于偏序的内容检索模型训练方法、内容检索方法及装置。在进行模型训练时,提取第一内容和第二内容的全局特征表征和局部特征表征,所提取的局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征;并且使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。
-
公开(公告)号:CN117521017A
公开(公告)日:2024-02-06
申请号:CN202410010966.7
申请日:2024-01-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/25 , G06F18/2431 , G06F18/27 , G06N3/0464 , G06N3/0455
Abstract: 本说明书实施例提供了一种获取多模态特征的方法和装置,该方法包括:获取第一模态的第一信息,根据第一信息从预先设立的多模态检索数据库中获取第一模态的第一相关信息和第二模态的第二相关信息;将第一信息和第一相关信息,输入与第一模态对应的第一编码器,得到第一特征;将第二相关信息,输入与第二模态对应的第二编码器,得到第二特征;将第一特征和第二特征输入交叉编码器,得到多模态特征。
-
公开(公告)号:CN115410130A
公开(公告)日:2022-11-29
申请号:CN202211073084.2
申请日:2022-09-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本公开提供了一种基于知识增强的视频场景识别方法,包括:接收包括多个视频帧和视频级文本的待识别视频;从视频级文本抽取关键词,并获取多个视频帧的帧级全局时序特征和帧级局部时序特征、以及帧级局部非时序特征;基于帧级全局时序特征构建视频级时序特征,以确定待识别视频的第一场景标签信息;基于所获取的帧级局部时序特征、帧级局部非时序特征以及关键词构建视频级知识增强特征,以确定待识别视频的第二场景标签信息;以及融合第一场景标签信息和第二场景标签信息以确定待识别视频的场景。
-
-
-
-
-
-