Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"张祺深" Page 1

1.

发明授权
基于强化学习的推荐方法及装置有权

公开(公告)号：CN111651679B

公开(公告)日：2023-07-11

申请号：CN202010655207.8

申请日：2020-07-09

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 张祺深

IPC: G06F16/9535 , G06Q30/0251 , G06Q30/0241 , G06N3/092 , G06N5/01

Abstract: 本说明书实施例提供了一种基于强化学习的推荐方法及装置。在该推荐方法中，响应于用户针对连续推荐场景的推荐请求，按照以下方式为用户进行连续推荐，直至结束推荐：获取用户的当前状态信息；使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容；以及向用户推送所述下一批推荐内容，其中，下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容，其中，强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，强化学习算法的环境状态包括用户的状态信息，强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

2.

发明公开
文本对象表征模型训练方法、文本对象召回方法及装置审中-实审

公开(公告)号：CN117390202A

公开(公告)日：2024-01-12

申请号：CN202311367609.8

申请日：2023-10-20

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 张祺深 , 单虹毓 , 孙晓洁 , 毕可平 , 范意兴 , 郭嘉丰

IPC: G06F16/383 , G06F16/332 , G06F16/33 , G06F16/36

Abstract: 本说明书实施例提供文本对象表征模型训练方法、文本对象召回方法及装置。在进行模型训练时，将结构化文本对象的经过掩码处理后的内容文本提供给文本对象表征模型来执行内容掩码语言模型预测任务，得到内容掩码预测损失函数；将结构化文本对象的属性文本和经过掩码处理的内容文本提供给文本对象表征模型来执行属性到内容的掩码语言模型预测任务，得到属性‑内容掩码预测损失函数，在执行属性到内容的掩码语言模型预测任务时，使用结构化文本对象的属性文本作为上下文执行内容文本掩码预测。随后，根据内容掩码预测损失函数和属性‑内容掩码预测损失函数调整文本对象表征模型的模型参数。

3.

发明公开
用于训练语义特征向量生成模型和语义搜索的方法和装置审中-实审

公开(公告)号：CN116561253A

公开(公告)日：2023-08-08

申请号：CN202310476189.0

申请日：2023-04-27

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 单虹毓 , 冯媛媛 , 卢宏亮 , 张祺深

IPC: G06F16/33 , G06F40/30 , G06N3/09

Abstract: 本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在该用于训练语义特征向量生成模型的方法中，对原始语料进行文本提取，得到与原始语料对应的第一部分文本集和第二部分文本集；根据第一部分文本集和所述第二部分文本集确定训练样本集，其中，训练样本集包括正样本对和负样本对，正样本对由来自于原始语料中同一文本的第一部分文本和第二部分文本组成，负样本对由来自于原始语料中不同文本的第一部分文本和第二部分文本组成；以及根据训练样本集的正样本对和负样本对，基于对比学习方法训练语义特征向量生成模型。

4.

发明公开
检索模型的预训练方法、文本检索方法、系统审中-实审

公开(公告)号：CN118210877A

公开(公告)日：2024-06-18

申请号：CN202410430340.1

申请日：2024-04-10

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 孙晓洁 , 毕可平 , 张祺深 , 单虹毓

IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06N3/0455 , G06N3/048 , G06N3/08

Abstract: 本公开提供一种检索模型的预训练方法、文本检索方法、系统，包括：获得样本文本的文本输入序列，根据文本输入序列和预设的样本提示字符确定样本输入序列，样本提示字符用于表征预设粒度下的预设属性的信息，将样本输入序列输入至预设的基础网络模型，输出与样本提示字符对应的第一预测结果、与样本文本对应的第二预测结果，根据第一预测结果和第二预测结果对基础网络模型进行迭代训练，直至收敛得到检索模型，以结合预设粒度+预设属性的方式进行预训练，以使得检索模型既可以学习到从预设粒度维度的检索能力，还能够学习到预设属性维度的检索能力，从而实现预训练的多样性和丰富性，进而提高基于本公开的方法预训练得到的检索模型的检索能力。

5.

发明公开
模型训练方法、文本处理方法、装置和计算机设备审中-实审

公开(公告)号：CN114896983A

公开(公告)日：2022-08-12

申请号：CN202210513283.4

申请日：2022-05-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李明哲 , 林谢雄 , 昌晋雄 , 张祺深 , 刘忠义

IPC: G06F40/30 , G06F40/295 , G06N20/00 , G06N3/04 , G06N3/08

Abstract: 本说明书实施例公开了一种模型训练方法、文本处理方法、装置和计算机设备。所述模型训练方法包括：获取原始文本、正样本和负样本，正样本和负样本为原始文本的改写文本；通过编码器，确定原始文本对应的第一分布参数、正样本对应的第二分布参数和负样本对应的第三分布参数，第一分布参数用于限定第一语义分布，第二分布参数用于限定第二语义分布，第三分布参数用于限定第三语义分布；根据第一分布参数、第二分布参数和第三分布参数，通过损失函数优化编码器的模型参数，所述损失函数包括第一项，所述第一项用于约束第一语义分布与第二语义分布之间的相似程度大于第一语义分布与第三语义分布之间的相似程度。本说明书实施例可以提高模型训练效果。

6.

发明公开
用于语义搜索的语义相似度确定和语义搜索方法及装置审中-实审

公开(公告)号：CN115934894A

公开(公告)日：2023-04-07

申请号：CN202211608314.0

申请日：2022-12-14

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 单虹毓 , 张祺深 , 冯媛媛 , 卢宏亮

IPC: G06F16/33 , G06F40/30 , G06F40/289 , G06F40/247

Abstract: 本说明书的实施例提供了一种用于语义搜索的语义相似度确定方法及装置。在该用于确定语义相似度的方法中，将获取的待查询文本的各个分词的语义特征向量和参考文本的各个分词的语义特征向量分别提供给多类目语义特征向量生成模型，得到该待查询文本和该参考文本在各个类目下的类目语义特征向量；从该待查询文本的类目语义特征向量中选择具有最强搜索意图的第一类目语义特征向量以及从该参考文本的类目语义特征向量中选择该第一类目语义特征向量所在类目下的第二类目语义特征向量；以及根据该第一类目语义特征向量和该第二类目语义特征向量，确定该待查询文本和该参考文本之间的语义相似度。

7.

发明公开
用于训练语义特征向量生成模型和语义搜索的方法和装置审中-实审

公开(公告)号：CN116450778A

公开(公告)日：2023-07-18

申请号：CN202310482559.1

申请日：2023-04-27

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 单虹毓 , 冯媛媛 , 卢宏亮 , 张祺深

IPC: G06F16/33 , G06F40/30 , G06N3/09

Abstract: 本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在用于训练语义特征向量生成模型的方法中，对所获取的训练样本的样本参考文本进行文本提取，得到对应的第一部分文本和第二部分文本；将所获取的训练样本的样本待查询文本和样本参考文本以及对应的第一部分文本和第二部分文本提供给当前语义特征向量生成模型，得到分别对应的语义特征向量；基于样本待查询文本分别与样本参考文本、第一部分文本和第二部分文本对应的语义特征向量之间的相似度确定样本待查询文本与样本参考文本的全局匹配信息和局部匹配信息；根据全局匹配信息和局部匹配信息所确定的损失函数的损失值调整当前语义特征向量生成模型的参数。

8.

发明公开
基于强化学习的推荐方法及装置有权

公开(公告)号：CN111651679A

公开(公告)日：2020-09-11

申请号：CN202010655207.8

申请日：2020-07-09

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 张祺深

IPC: G06F16/9535 , G06Q30/02 , G06N7/00

Abstract: 本说明书实施例提供了一种基于强化学习的推荐方法及装置。在该推荐方法中，响应于用户针对连续推荐场景的推荐请求，按照以下方式为用户进行连续推荐，直至结束推荐：获取用户的当前状态信息；使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容；以及向用户推送所述下一批推荐内容，其中，下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容，其中，强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列，强化学习算法的环境状态包括用户的状态信息，强化学习算法的回报包括基于用户反馈行为的业务反馈信息。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification