-
公开(公告)号:CN111539228A
公开(公告)日:2020-08-14
申请号:CN202010358085.6
申请日:2020-04-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/49 , G06F40/126 , G06F40/205 , G06F40/237
Abstract: 本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。
-
公开(公告)号:CN112528653B
公开(公告)日:2023-11-28
申请号:CN202011398845.2
申请日:2020-12-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289
Abstract: 本公开提供了一种短文本实体识别方法,包括:获取短文本并对该短文本进行分词;对经分词的短文本进行词向量训练,以生成词向量序列;基于对抗性框架对该词向量序列中的各个词向量进行词性表征学习,以获取该词向量的词性特征;提取该词向量序列中的各个词向量的局部上下文特征以及各个词向量之间的全局语义特征;以及使用词性特征、局部上下文特征和全局语义特征识别实体。
-
公开(公告)号:CN111539228B
公开(公告)日:2023-08-08
申请号:CN202010358085.6
申请日:2020-04-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/49 , G06F40/126 , G06F40/205 , G06F40/237
Abstract: 本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。
-
公开(公告)号:CN111581950A
公开(公告)日:2020-08-25
申请号:CN202010361585.5
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。
-
公开(公告)号:CN111581950B
公开(公告)日:2024-01-02
申请号:CN202010361585.5
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/247 , G06F40/30 , G06F16/33 , G06F16/36 , G06Q10/0635 , G06Q40/04
Abstract: 为准确、全面地挖掘出目标对象的同义名称词。本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数
-
公开(公告)号:CN112528653A
公开(公告)日:2021-03-19
申请号:CN202011398845.2
申请日:2020-12-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289
Abstract: 本公开提供了一种短文本实体识别方法,包括:获取短文本并对该短文本进行分词;对经分词的短文本进行词向量训练,以生成词向量序列;基于对抗性框架对该词向量序列中的各个词向量进行词性表征学习,以获取该词向量的词性特征;提取该词向量序列中的各个词向量的局部上下文特征以及各个词向量之间的全局语义特征;以及使用词性特征、局部上下文特征和全局语义特征识别实体。
-
公开(公告)号:CN111711618A
公开(公告)日:2020-09-25
申请号:CN202010489800.X
申请日:2020-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L29/06
Abstract: 本申请公开了一种风险地址识别方法、设备和装置,该方法包括:获取待识别地址数据;将所述待识别地址数据通过第一预设模型划分为多个字符组;确定划分后的每个字符组对应的词嵌入向量;将每个字符组对应的词嵌入向量输入风险地址识别网络模型,得到所述待识别地址数据是否为风险地址。
-
公开(公告)号:CN111401569B
公开(公告)日:2023-02-17
申请号:CN202010229223.0
申请日:2020-03-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种超参数优化方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足迭代结束条件:根据动作数据,调整超参数的当前取值,所述动作数据用于表示超参数取值的调整方向;根据超参数的调整后的取值,计算相应的性能指标,所述性能指标用于表示模型的性能;根据动作数据和性能指标,更新目标函数的代理模型,所述目标函数用于表示从动作数据到性能指标的映射关系;根据更新后的代理模型,确定新的动作数据;在迭代结束以后,将超参数的当前取值确定为优化取值。本说明书实施例的超参数优化方法、装置和电子设备,可以快速地获得超参数的优化取值,减少迭代次数。
-
公开(公告)号:CN111401569A
公开(公告)日:2020-07-10
申请号:CN202010229223.0
申请日:2020-03-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种超参数优化方法、装置和电子设备的实施例。所述方法包括:利用以下步骤进行迭代处理,直至满足迭代结束条件:根据动作数据,调整超参数的当前取值,所述动作数据用于表示超参数取值的调整方向;根据超参数的调整后的取值,计算相应的性能指标,所述性能指标用于表示模型的性能;根据动作数据和性能指标,更新目标函数的代理模型,所述目标函数用于表示从动作数据到性能指标的映射关系;根据更新后的代理模型,确定新的动作数据;在迭代结束以后,将超参数的当前取值确定为优化取值。本说明书实施例的超参数优化方法、装置和电子设备,可以快速地获得超参数的优化取值,减少迭代次数。
-
公开(公告)号:CN111583037B
公开(公告)日:2023-04-07
申请号:CN202010361597.8
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/04 , G06Q10/0635 , G06F16/245 , G06F16/28
Abstract: 本说明书提供了风险关联对象的确定方法、装置和服务器。在一个实施例中,上述风险关联对象的确定方法可以预先根据多个数据对象的股权关系数据,基于生成森林数据结构建立得到的对应的股权关系图;在具体确定目标对象是否是黑名单的风险关联对象时,可以根据目标对象和黑名单,来检索扫描上述基于生成森林数据结构的股权关系图,快速地得到对应的检索结果;再根据检索结果,确定出目标对象是否为黑名单的风险关联对象。从而可以有效地降低处理过程中所涉及的数据处理量和数据处理的复杂度,提高了数据处理效率,以能高效、准确地判断出目标对象是否为黑名单的风险关联对象。
-
-
-
-
-
-
-
-
-