-
公开(公告)号:CN111310456A
公开(公告)日:2020-06-19
申请号:CN202010090933.X
申请日:2020-02-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08 , G06N20/00 , G06Q40/04
Abstract: 本说明书实施例提供一种实体名称匹配方法、装置及设备。方案包括:获取待匹配实体名称;对待匹配实体名称进行分词,并将分词映射为向量,得到待匹配实体名称的词向量;采用基于自注意力机制的特征抽取器对每个词向量进行特征抽取,得到第一特征向量;再采用训练完成的条件随机场模型对第一特征向量进行序列标注,得到携带有域标签的第二特征向量,将第二特征向量输入到实体匹配模型中,得到匹配结果。
-
公开(公告)号:CN118656487A
公开(公告)日:2024-09-17
申请号:CN202410705419.0
申请日:2024-05-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种大型语言模型微调的方法、装置及电子设备。所述方法包括:接收针对大型语言模型的微调的任务指令,并基于所述任务指令,获取对所述大型语言模型进行微调所需的训练数据集;使用所述大型语言模型对所述训练数据集中的训练文本进行信息提取处理,得到所述训练文本对应的第一摘要;使用评估模型对所述第一摘要进行质量评估,得到所述第一摘要对应的评估结果;基于至少包含所述评估结果的微调数据对所述大型语言模型进行微调,得到微调后的大型语言模型。
-
公开(公告)号:CN118484463A
公开(公告)日:2024-08-13
申请号:CN202410741225.6
申请日:2024-06-07
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种合规名单系统、合规名单的处理方法及设备,该合规名单系统包括:数据采集模块、解析引擎模块、名单管理模块,其中:数据采集模块,被配置为根据预设的多个不同的数据采集地址采集与合规名单相关的发布数据,将发布数据提供给解析引擎模块,发布数据中至少包括半结构化数据和非结构化数据中的一种或多种;解析引擎模块,被配置为对发布数据进行关键信息提取,得到包含实体名单属性的关键信息,并将发布数据转换为预设数据格式的解析数据,将包含实体名单属性的关键信息和解析数据提供给名单管理模块;名单管理模块,被配置为基于包含实体名单属性的关键信息和解析数据对合规名单数据库进行更新,得到更新的合规名单。
-
公开(公告)号:CN118279921A
公开(公告)日:2024-07-02
申请号:CN202410501957.8
申请日:2024-04-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/41 , G06V30/413 , G06F40/30
Abstract: 本说明书实施例公开了一种信息提取的方法、装置及电子设备。所述方法包括:在接收到针对待提取文件的信息提取指令的情况下,对所述待提取文件进行文本检测,确定所述待提取文件中包含文本序列的多个目标区域;基于各个所述目标区域在所述待提取文件中的位置信息,确定读取所述待提取文件的读取策略,所述读取策略用于确定所述待提取文件中各个所述目标区域的读取顺序;在对所述待提取文件中各个所述目标区域的文本序列进行识别后,基于所述读取策略,对识别得到的文本序列进行拼接处理,得到所述待提取文件对应的拼接文本;对所述拼接文本进行信息抽取处理,得到所述待提取文件对应的目标信息,作为对所述信息提取指令的响应。
-
公开(公告)号:CN112528653B
公开(公告)日:2023-11-28
申请号:CN202011398845.2
申请日:2020-12-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289
Abstract: 本公开提供了一种短文本实体识别方法,包括:获取短文本并对该短文本进行分词;对经分词的短文本进行词向量训练,以生成词向量序列;基于对抗性框架对该词向量序列中的各个词向量进行词性表征学习,以获取该词向量的词性特征;提取该词向量序列中的各个词向量的局部上下文特征以及各个词向量之间的全局语义特征;以及使用词性特征、局部上下文特征和全局语义特征识别实体。
-
公开(公告)号:CN116822961A
公开(公告)日:2023-09-29
申请号:CN202310865597.5
申请日:2023-07-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q10/0635 , G06Q40/04 , G06F16/2455
Abstract: 本说明书实施例提供了风险识别模型的模型处理方法及装置,其中,一种风险识别模型的模型处理方法包括:将目标服务下的交易事件样本输入风险识别模型进行风险命中分数计算,获得交易事件样本在各风险项下的风险命中分数,借助风险命中分数、交易事件样本的样本分数、命中状态标签和风险识别模型的模型参数确定风险命中指标,通过损失函数基于风险命中指标和目标服务的风险约束指标计算训练损失,基于训练损失对风险识别模型进行参数调整。
-
公开(公告)号:CN111539228B
公开(公告)日:2023-08-08
申请号:CN202010358085.6
申请日:2020-04-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/49 , G06F40/126 , G06F40/205 , G06F40/237
Abstract: 本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。
-
公开(公告)号:CN116304738A
公开(公告)日:2023-06-23
申请号:CN202310264152.1
申请日:2023-03-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F18/214
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
-
公开(公告)号:CN116010246A
公开(公告)日:2023-04-25
申请号:CN202211590876.7
申请日:2022-12-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/36 , G06N3/0475 , G06N3/092
Abstract: 本说明书实施例提供了名单筛查系统的有效性评估方法和装置。该方法包括:将至少一个原始业务信息输入预先训练出的测试用例生成模型,得到该测试用例生成模型输出的至少一个对抗业务信息;其中,所述测试用例生成模型是利用真实业务信息训练得到的,且该测试用例生成模型对每一个原始业务信息进行变异后得到该原始业务信息对应的对抗业务信息;将测试用例生成模型输出的至少一个对抗业务信息输入名单筛查系统;根据至少一个原始业务信息、测试用例生成模型输出的至少一个对抗业务信息、名单筛查系统识别出的对抗业务信息,得到名单筛查系统的有效性。本说明书实施例能够更为准确地评估出一个名单筛查系统的有效性。
-
公开(公告)号:CN112966112A
公开(公告)日:2021-06-15
申请号:CN202110322493.0
申请日:2021-03-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 说明书实施例提供了一种文本分类模型的训练方法和文本分类方法,文本分类模型包括文本分类网络、对抗文本生成网络,该方法包括:将第一文本样本输入对抗文本生成网络,获得第一对抗文本;根据第一对抗文本与第一文本样本的文本差异损失;确定第一对抗文本与第一文本样本对于文本分类网络的判别差异损失;以文本差异损失趋于变小、判别差异损失趋于变大为目标,训练对抗文本生成网络;将第二文本样本输入经过训练的对抗文本生成网络,生成第二对抗文本;将第二文本样本和所述第二对抗文本,输入文本分类网络,得到第二文本样本和第二对抗文本分别对应的分类结果,以该分类结果趋同于第二文本样本的分类标签为目标,更新文本分类网络。
-
-
-
-
-
-
-
-
-