-
公开(公告)号:CN115934894A
公开(公告)日:2023-04-07
申请号:CN202211608314.0
申请日:2022-12-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F40/30 , G06F40/289 , G06F40/247
Abstract: 本说明书的实施例提供了一种用于语义搜索的语义相似度确定方法及装置。在该用于确定语义相似度的方法中,将获取的待查询文本的各个分词的语义特征向量和参考文本的各个分词的语义特征向量分别提供给多类目语义特征向量生成模型,得到该待查询文本和该参考文本在各个类目下的类目语义特征向量;从该待查询文本的类目语义特征向量中选择具有最强搜索意图的第一类目语义特征向量以及从该参考文本的类目语义特征向量中选择该第一类目语义特征向量所在类目下的第二类目语义特征向量;以及根据该第一类目语义特征向量和该第二类目语义特征向量,确定该待查询文本和该参考文本之间的语义相似度。
-
公开(公告)号:CN118210877A
公开(公告)日:2024-06-18
申请号:CN202410430340.1
申请日:2024-04-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 本公开提供一种检索模型的预训练方法、文本检索方法、系统,包括:获得样本文本的文本输入序列,根据文本输入序列和预设的样本提示字符确定样本输入序列,样本提示字符用于表征预设粒度下的预设属性的信息,将样本输入序列输入至预设的基础网络模型,输出与样本提示字符对应的第一预测结果、与样本文本对应的第二预测结果,根据第一预测结果和第二预测结果对基础网络模型进行迭代训练,直至收敛得到检索模型,以结合预设粒度+预设属性的方式进行预训练,以使得检索模型既可以学习到从预设粒度维度的检索能力,还能够学习到预设属性维度的检索能力,从而实现预训练的多样性和丰富性,进而提高基于本公开的方法预训练得到的检索模型的检索能力。
-
公开(公告)号:CN116450778A
公开(公告)日:2023-07-18
申请号:CN202310482559.1
申请日:2023-04-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在用于训练语义特征向量生成模型的方法中,对所获取的训练样本的样本参考文本进行文本提取,得到对应的第一部分文本和第二部分文本;将所获取的训练样本的样本待查询文本和样本参考文本以及对应的第一部分文本和第二部分文本提供给当前语义特征向量生成模型,得到分别对应的语义特征向量;基于样本待查询文本分别与样本参考文本、第一部分文本和第二部分文本对应的语义特征向量之间的相似度确定样本待查询文本与样本参考文本的全局匹配信息和局部匹配信息;根据全局匹配信息和局部匹配信息所确定的损失函数的损失值调整当前语义特征向量生成模型的参数。
-
公开(公告)号:CN117390202A
公开(公告)日:2024-01-12
申请号:CN202311367609.8
申请日:2023-10-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/383 , G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本说明书实施例提供文本对象表征模型训练方法、文本对象召回方法及装置。在进行模型训练时,将结构化文本对象的经过掩码处理后的内容文本提供给文本对象表征模型来执行内容掩码语言模型预测任务,得到内容掩码预测损失函数;将结构化文本对象的属性文本和经过掩码处理的内容文本提供给文本对象表征模型来执行属性到内容的掩码语言模型预测任务,得到属性‑内容掩码预测损失函数,在执行属性到内容的掩码语言模型预测任务时,使用结构化文本对象的属性文本作为上下文执行内容文本掩码预测。随后,根据内容掩码预测损失函数和属性‑内容掩码预测损失函数调整文本对象表征模型的模型参数。
-
公开(公告)号:CN116561253A
公开(公告)日:2023-08-08
申请号:CN202310476189.0
申请日:2023-04-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书的实施例提供了一种用于训练语义特征向量生成模型和语义搜索的方法和装置。在该用于训练语义特征向量生成模型的方法中,对原始语料进行文本提取,得到与原始语料对应的第一部分文本集和第二部分文本集;根据第一部分文本集和所述第二部分文本集确定训练样本集,其中,训练样本集包括正样本对和负样本对,正样本对由来自于原始语料中同一文本的第一部分文本和第二部分文本组成,负样本对由来自于原始语料中不同文本的第一部分文本和第二部分文本组成;以及根据训练样本集的正样本对和负样本对,基于对比学习方法训练语义特征向量生成模型。
-
-
-
-