-
公开(公告)号:CN111581950B
公开(公告)日:2024-01-02
申请号:CN202010361585.5
申请日:2020-04-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/247 , G06F40/30 , G06F16/33 , G06F16/36 , G06Q10/0635 , G06Q40/04
Abstract: 为准确、全面地挖掘出目标对象的同义名称词。本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数
-
公开(公告)号:CN115422929A
公开(公告)日:2022-12-02
申请号:CN202211088506.3
申请日:2022-09-07
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本公开提出了一种文本纠错方法和系统。该方法包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。
-
公开(公告)号:CN115147849A
公开(公告)日:2022-10-04
申请号:CN202210686424.2
申请日:2022-06-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/19 , G06V10/774 , G06V10/82
Abstract: 本说明书实施例描述了字符编码模型的训练方法、字符匹配方法和装置。根据实施例的方法,首先获取样本训练集,然后针对各个样本训练集进行编码处理。进一步,利用各个样本训练集得到的表征向量可以计算损失函数值。最后,利用得到的损失函数值即可训练字符编码模型。由于训练模型的每一个样本训练集中包含有标准字符串、正样本字符串和负样本字符串,而且正样本字符串和标准字符串表征的对象相同,负样本字符串和标准字符串表征的对象不同。如此在利用得到的模型对字符串进行编码时,能够使表征同一对象的字符串的表征向量相似度更高,而使表征不同对象的字符串的表征向量相似度更低,从而在进行字符串匹配时能够提高字符串匹配的准确性。
-
公开(公告)号:CN111711618A
公开(公告)日:2020-09-25
申请号:CN202010489800.X
申请日:2020-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L29/06
Abstract: 本申请公开了一种风险地址识别方法、设备和装置,该方法包括:获取待识别地址数据;将所述待识别地址数据通过第一预设模型划分为多个字符组;确定划分后的每个字符组对应的词嵌入向量;将每个字符组对应的词嵌入向量输入风险地址识别网络模型,得到所述待识别地址数据是否为风险地址。
-
-
-