-
公开(公告)号:CN114821616B
公开(公告)日:2024-10-11
申请号:CN202210454967.1
申请日:2022-04-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/413 , G06V30/24 , G06V30/19
Abstract: 本说明书实施例提供了页面表征模型训练的方法、装置及计算设备。该方法包括:获取与目标页面相关的多个对象对应的多个编码向量;多个对象包括位于目标页面中的多个第一文字;利用训练好的目标检测模型,检测目标页面中的版面元素各自对应的标定元素类别得到第一结果;将多个编码向量输入页面表征模型,页面表征模型基于注意力机制对多个编码向量进行处理,得到对应的多个表征向量;根据多个表征向量,确定第二结果,第二结果包括多个对象的部分或全部的预测元素类别;根据第一结果和第二结果确定第一预测损失;根据第一预测损失对页面表征模型进行训练,使得页面表征模型学习页面的版面元素和页面的文字之间的关系,更好的表征页面的文字信息。
-
公开(公告)号:CN118377841A
公开(公告)日:2024-07-23
申请号:CN202410390218.6
申请日:2024-04-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/295 , G06F40/30 , G06F40/284 , G06V30/19 , G06V10/82 , G06N3/09 , G06N3/045
Abstract: 本说明书实施例公开了一种实体信息提取模型训练、实体信息提取方法、装置及设备。实体可以是身份性的个人信息。获取多个文本样本及其样本标签;其中,每个文本样本包括按序排列的若干文本单元,每个文本样本的样本标签表示该文本样本实际包含的实体信息;以每个文本样本为模型输入,以每个文本样本的信息提取结果为模型输出,根据每个文本样本的样本标签训练所述实体信息提取模型。
-
公开(公告)号:CN114266226A
公开(公告)日:2022-04-01
申请号:CN202111642879.6
申请日:2021-12-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/126 , G06F40/166 , G06F40/205
Abstract: 本申请提出一种文本处理方法、装置、设备和存储介质。该方法可以包括:对待处理文本进行切分操作,得到N个文本序列;针对所述N个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;对编码后的N个所述文本序列进行编码,得到所述待处理文本对应的编码结果,并根据所述编码结果,确定所述待处理文本的文本类型。
-
公开(公告)号:CN114841664A
公开(公告)日:2022-08-02
申请号:CN202210489685.5
申请日:2022-05-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种多任务处理顺序确定方法及装置。所述方法包括:获取任务关系图;其中,以需要确定处理顺序的不同任务为任务关系图中的不同节点;任务关系图中每个边的权重,与该边所连接的两个任务对应的节约时长负相关;基于人工智能模型,确定任务关系图中每条边属于任务关系图的权重和最小路径的概率;预先根据图样本和图样本中每条边对应的标签训练人工智能模型,每条边对应的标签用于表征该边属于或不属于图样本的权重和最小路径;根据所确定的每条边的概率,从不重复地经过任务关系图中各个节点的所有可能路径中,确定出达标路径;根据所述达标路径中各个任务的连接关系,确定各个任务的处理顺序。
-
公开(公告)号:CN114821616A
公开(公告)日:2022-07-29
申请号:CN202210454967.1
申请日:2022-04-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/413 , G06V30/24 , G06V30/19
Abstract: 本说明书实施例提供了页面表征模型训练的方法、装置及计算设备。该方法包括:获取与目标页面相关的多个对象对应的多个编码向量;多个对象包括位于目标页面中的多个第一文字;利用训练好的目标检测模型,检测目标页面中的版面元素各自对应的标定元素类别得到第一结果;将多个编码向量输入页面表征模型,页面表征模型基于注意力机制对多个编码向量进行处理,得到对应的多个表征向量;根据多个表征向量,确定第二结果,第二结果包括多个对象的部分或全部的预测元素类别;根据第一结果和第二结果确定第一预测损失;根据第一预测损失对页面表征模型进行训练,使得页面表征模型学习页面的版面元素和页面的文字之间的关系,更好的表征页面的文字信息。
-
公开(公告)号:CN118428456A
公开(公告)日:2024-08-02
申请号:CN202410524677.9
申请日:2024-04-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/10 , G06N3/082 , G06N3/0495 , G06N3/045
Abstract: 本说明书公开了一种模型部署方法、装置、存储介质及电子设备。该模型部署的方法包括:获取训练各原始模型的各原始训练样本集,并将各原始训练样本集进行合并,得到合并训练样本集;针对合并训练样本集中包含的每个训练样本,将该训练样本输入到待训练的合并模型以及各原始模型中,以获得待训练的合并模型输出得针对该训练样本的待验证结果和各原始模型分别输出的针对该训练样本的原始输出结果,最后,以最小化该训练样本对应的标签结果与该训练样本对应的待验证结果之间的偏差,以及最小化该训练样本对应的各原始输出结果与该训练样本对应的待验证结果之间的偏差为优化目标,对合并模型进行训练,并将训练后的合并模型替换各原始模型进行部署。
-
公开(公告)号:CN113672740B
公开(公告)日:2023-11-07
申请号:CN202110889120.1
申请日:2021-08-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/36 , G06F16/35 , G06N3/0464 , G06Q10/0635 , G06Q30/018
Abstract: 本说明书实施例提供一种针对关系网络的数据处理方法及装置,在相应实施例中,针对关系网络中的目标实体,通过路径挖掘其拓扑结构信息。其中,拓扑结构信息通过多个基准路径对应的路径特征项上的特征值表示,而基准路径是从各个目标节点为起点的随机游走路径中筛选出来的,可以挖掘节点之间的共性。将路径特征加入相应节点的预测业务的数据处理过程,这种实施方式可以提高针对目标节点的预测业务处理的结果准确性,以及提高关系网络的可用性。
-
公开(公告)号:CN114841664B
公开(公告)日:2025-03-25
申请号:CN202210489685.5
申请日:2022-05-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q10/10 , G06N3/042 , G06N3/045 , G06N3/0464 , G06F18/23213
Abstract: 本说明书实施例公开了一种多任务处理顺序确定方法及装置。所述方法包括:获取任务关系图;其中,以需要确定处理顺序的不同任务为任务关系图中的不同节点;任务关系图中每个边的权重,与该边所连接的两个任务对应的节约时长负相关;基于人工智能模型,确定任务关系图中每条边属于任务关系图的权重和最小路径的概率;预先根据图样本和图样本中每条边对应的标签训练人工智能模型,每条边对应的标签用于表征该边属于或不属于图样本的权重和最小路径;根据所确定的每条边的概率,从不重复地经过任务关系图中各个节点的所有可能路径中,确定出达标路径;根据所述达标路径中各个任务的连接关系,确定各个任务的处理顺序。
-
公开(公告)号:CN116521864A
公开(公告)日:2023-08-01
申请号:CN202310327646.X
申请日:2023-03-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F18/40 , G06F18/214
Abstract: 本说明书实施例公开了一种用于文本类模型的精调阶段蒸馏方法,包括:获取训练集样本以及经过预训练的教师模型,所述教师模型包括多个隐藏层;在所述教师模型的多个隐藏层中选择至少两个指定层进行聚合,得到聚合后隐藏层;根据所述聚合后隐藏层和教师模型中的剩余非指定层生成学生模型;采用教师模型蒸馏学生模型;将蒸馏后的学生模型重新作为教师模型,直至无法从教师模型中选择出至少两个指定层时,将此时的教师模型作为目标模型。相应地,本说明实施例还公开了用于文本类模型的精调阶段蒸馏装置。
-
公开(公告)号:CN113672740A
公开(公告)日:2021-11-19
申请号:CN202110889120.1
申请日:2021-08-04
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对关系网络的数据处理方法及装置,在相应实施例中,针对关系网络中的目标实体,通过路径挖掘其拓扑结构信息。其中,拓扑结构信息通过多个基准路径对应的路径特征项上的特征值表示,而基准路径是从各个目标节点为起点的随机游走路径中筛选出来的,可以挖掘节点之间的共性。将路径特征加入相应节点的预测业务的数据处理过程,这种实施方式可以提高针对目标节点的预测业务处理的结果准确性,以及提高关系网络的可用性。
-
-
-
-
-
-
-
-
-