Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"俞旭铮" Page 1

1.

发明授权
用于确定文本和视频之间的相似度的方法和装置有权

公开(公告)号：CN117556276B

公开(公告)日：2024-05-10

申请号：CN202410044723.5

申请日：2024-01-11

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 俞旭铮 , 蒋晨 , 刘洪 , 郭清沛

IPC: G06F18/22 , G06F40/211 , G06V10/74 , G06V20/40 , G06F18/214

Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中，利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征；根据文本的句法层级分析结果对初始文本特征进行处理，得到句法层级分析结果中的各个元素分别对应的文本特征；根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度，构建与句法层级分析结果对应的视频层级分析结果；进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定文本和所述视频之间的相似度。

2.

发明授权
一种获取多模态特征方法和装置有权

公开(公告)号：CN117521017B

公开(公告)日：2024-04-05

申请号：CN202410010966.7

申请日：2024-01-03

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 俞旭铮 , 郭清沛

IPC: G06F18/25 , G06F18/2431 , G06F18/27 , G06N3/0464 , G06N3/0455

Abstract: 本说明书实施例提供了一种获取多模态特征的方法和装置，该方法包括：获取第一模态的第一信息，根据第一信息从预先设立的多模态检索数据库中获取第一模态的第一相关信息和第二模态的第二相关信息；将第一信息和第一相关信息，输入与第一模态对应的第一编码器，得到第一特征；将第二相关信息，输入与第二模态对应的第二编码器，得到第二特征；将第一特征和第二特征输入交叉编码器，得到多模态特征。

3.

发明公开
用于确定文本和视频之间的相似度的方法和装置审中-实审

公开(公告)号：CN117556276A

公开(公告)日：2024-02-13

申请号：CN202410044723.5

申请日：2024-01-11

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 俞旭铮 , 蒋晨 , 刘洪 , 郭清沛

IPC: G06F18/22 , G06F40/211 , G06V10/74 , G06V20/40 , G06F18/214

Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中，利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征；根据文本的句法层级分析结果对初始文本特征进行处理，得到句法层级分析结果中的各个元素分别对应的文本特征；根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度，构建与句法层级分析结果对应的视频层级分析结果；进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定文本和所述视频之间的相似度。

4.

发明公开
用于确定文本和视频之间的相似度的方法和装置审中-实审

公开(公告)号：CN116958868A

公开(公告)日：2023-10-27

申请号：CN202310906058.1

申请日：2023-07-21

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 蒋晨 , 刘洪 , 俞旭铮 , 郭清沛

IPC: G06V20/40 , G06V20/62 , G06V10/74 , G06V10/774 , G06V10/80 , G06N3/0464 , G06N3/08

Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该用于确定文本和视频之间的相似度的方法中，将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的词符特征序列和图像特征序列；根据各个词符特征与各个图像特征之间的相似度确定相关词符特征‑图像特征对；针对各个相关词符特征‑图像特征对，对该词符特征与该图像特征之间的相似度和所确定的该图像特征对应的相近图像特征与词符特征序列之间的相似度进行聚合，生成相近图像约束相似度；以及基于所得到的相近图像约束相似度，确定文本视频对中的文本和视频之间的相似度。

5.

发明公开
基于偏序的内容检索模型训练方法、内容检索方法及装置审中-实审

公开(公告)号：CN116881520A

公开(公告)日：2023-10-13

申请号：CN202310896764.2

申请日：2023-07-20

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 刘洪 , 蒋晨 , 俞旭铮 , 徐家

IPC: G06F16/9035 , G06F16/903 , G06F18/25 , G06V20/40 , G06F40/30

Abstract: 本说明书的实施例提供基于偏序的内容检索模型训练方法、内容检索方法及装置。在进行模型训练时，提取第一内容和第二内容的全局特征表征和局部特征表征，所提取的局部特征表征包括对内容进行内容切分而得到的内容片段的内容片段特征表征。通过跨内容特征交互来根据第一内容和第二内容的局部特征表征生成第一内容和第二内容的语义偏序表征；并且使用第一内容和第二内容的全局特征表征和语义偏序表征来对内容检索模型进行基于偏序对比学习的模型训练。

6.

发明公开
一种获取多模态特征方法和装置审中-实审

公开(公告)号：CN117521017A

公开(公告)日：2024-02-06

申请号：CN202410010966.7

申请日：2024-01-03

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 俞旭铮 , 郭清沛

IPC: G06F18/25 , G06F18/2431 , G06F18/27 , G06N3/0464 , G06N3/0455

Abstract: 本说明书实施例提供了一种获取多模态特征的方法和装置，该方法包括：获取第一模态的第一信息，根据第一信息从预先设立的多模态检索数据库中获取第一模态的第一相关信息和第二模态的第二相关信息；将第一信息和第一相关信息，输入与第一模态对应的第一编码器，得到第一特征；将第二相关信息，输入与第二模态对应的第二编码器，得到第二特征；将第一特征和第二特征输入交叉编码器，得到多模态特征。

7.

发明公开
基于知识增强的视频场景识别方法和系统审中-实审

公开(公告)号：CN115410130A

公开(公告)日：2022-11-29

申请号：CN202211073084.2

申请日：2022-09-02

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 俞旭铮 , 程远 , 张伟 , 蒋晨

IPC: G06V20/40 , G06N3/04 , G06N3/08 , G06V10/80 , G06V10/82

Abstract: 本公开提供了一种基于知识增强的视频场景识别方法，包括：接收包括多个视频帧和视频级文本的待识别视频；从视频级文本抽取关键词，并获取多个视频帧的帧级全局时序特征和帧级局部时序特征、以及帧级局部非时序特征；基于帧级全局时序特征构建视频级时序特征，以确定待识别视频的第一场景标签信息；基于所获取的帧级局部时序特征、帧级局部非时序特征以及关键词构建视频级知识增强特征，以确定待识别视频的第二场景标签信息；以及融合第一场景标签信息和第二场景标签信息以确定待识别视频的场景。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification