-
公开(公告)号:CN111539228A
公开(公告)日:2020-08-14
申请号:CN202010358085.6
申请日:2020-04-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/49 , G06F40/126 , G06F40/205 , G06F40/237
Abstract: 本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。
-
公开(公告)号:CN111583037B
公开(公告)日:2023-04-07
申请号:CN202010361597.8
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/04 , G06Q10/0635 , G06F16/245 , G06F16/28
Abstract: 本说明书提供了风险关联对象的确定方法、装置和服务器。在一个实施例中,上述风险关联对象的确定方法可以预先根据多个数据对象的股权关系数据,基于生成森林数据结构建立得到的对应的股权关系图;在具体确定目标对象是否是黑名单的风险关联对象时,可以根据目标对象和黑名单,来检索扫描上述基于生成森林数据结构的股权关系图,快速地得到对应的检索结果;再根据检索结果,确定出目标对象是否为黑名单的风险关联对象。从而可以有效地降低处理过程中所涉及的数据处理量和数据处理的复杂度,提高了数据处理效率,以能高效、准确地判断出目标对象是否为黑名单的风险关联对象。
-
公开(公告)号:CN114118108A
公开(公告)日:2022-03-01
申请号:CN202111330368.0
申请日:2021-11-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/58 , G06F40/274 , G06F40/126 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例提供了一种建立转译模型的方法、转译方法和对应装置,根据本说明书实施例,首先获取包含多个训练样本的训练数据;然后利用训练数据训练包含编码器、文本解码器和语音解码器的辅助模型;其中,将训练样本的源语言文本作为编码器的输入,由编码器输出该源语言文本的特征表示;文本解码器利用特征表示预测该源语言文本的目标语言文本;语音解码器利用特征表示预测该源语言文本的语音索引文本;辅助模型的训练目标为:最小化文本解码器的预测结果与训练样本中对应目标语言文本的差异以及最小化语音解码器的预测结果与训练样本中对应语音索引文本的差异;再利用训练得到的辅助模型中的编码器和文本解码器得到转译模型。
-
公开(公告)号:CN111583037A
公开(公告)日:2020-08-25
申请号:CN202010361597.8
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/04 , G06Q10/06 , G06F16/245 , G06F16/28
Abstract: 本说明书提供了风险关联对象的确定方法、装置和服务器。在一个实施例中,上述风险关联对象的确定方法可以预先根据多个数据对象的股权关系数据,基于生成森林数据结构建立得到的对应的股权关系图;在具体确定目标对象是否是黑名单的风险关联对象时,可以根据目标对象和黑名单,来检索扫描上述基于生成森林数据结构的股权关系图,快速地得到对应的检索结果;再根据检索结果,确定出目标对象是否为黑名单的风险关联对象。从而可以有效地降低处理过程中所涉及的数据处理量和数据处理的复杂度,提高了数据处理效率,以能高效、准确地判断出目标对象是否为黑名单的风险关联对象。
-
公开(公告)号:CN111401569B
公开(公告)日:2023-02-17
申请号:CN202010229223.0
申请日:2020-03-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种超参数优化方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足迭代结束条件:根据动作数据,调整超参数的当前取值,所述动作数据用于表示超参数取值的调整方向;根据超参数的调整后的取值,计算相应的性能指标,所述性能指标用于表示模型的性能;根据动作数据和性能指标,更新目标函数的代理模型,所述目标函数用于表示从动作数据到性能指标的映射关系;根据更新后的代理模型,确定新的动作数据;在迭代结束以后,将超参数的当前取值确定为优化取值。本说明书实施例的超参数优化方法、装置和电子设备,可以快速地获得超参数的优化取值,减少迭代次数。
-
公开(公告)号:CN114510944A
公开(公告)日:2022-05-17
申请号:CN202210153195.8
申请日:2022-02-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本说明书一个或多个实施例提供一种名称匹配方法、训练方法、设备及存储介质。所述方法包括:获取待匹配名称的名称字符串;根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量;其中,所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量;确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度;其中,所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到;根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。本实施例有利于提高匹配效率和匹配准确性。
-
公开(公告)号:CN111401569A
公开(公告)日:2020-07-10
申请号:CN202010229223.0
申请日:2020-03-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种超参数优化方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足迭代结束条件:根据动作数据,调整超参数的当前取值,所述动作数据用于表示超参数取值的调整方向;根据超参数的调整后的取值,计算相应的性能指标,所述性能指标用于表示模型的性能;根据动作数据和性能指标,更新目标函数的代理模型,所述目标函数用于表示从动作数据到性能指标的映射关系;根据更新后的代理模型,确定新的动作数据;在迭代结束以后,将超参数的当前取值确定为优化取值。本说明书实施例的超参数优化方法、装置和电子设备,可以快速地获得超参数的优化取值,减少迭代次数。
-
公开(公告)号:CN111539228B
公开(公告)日:2023-08-08
申请号:CN202010358085.6
申请日:2020-04-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/49 , G06F40/126 , G06F40/205 , G06F40/237
Abstract: 本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。
-
公开(公告)号:CN116304738A
公开(公告)日:2023-06-23
申请号:CN202310264152.1
申请日:2023-03-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F18/214
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
-
公开(公告)号:CN111581950A
公开(公告)日:2020-08-25
申请号:CN202010361585.5
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
-
-
-
-
-
-
-
-
-