-
公开(公告)号:CN112533681B
公开(公告)日:2024-07-12
申请号:CN202080004369.3
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。获得指定了针对所述子任务序列中的子任务的策略神经网络(SNN)的数据。SNN接收包括由达到所述子任务的初始状态的动作序列的输入,并预测所述执行设备针对所述子任务的动作选择方针。所述SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络(VNN)来训练的。确定向SNN的输入。所述输入包括达到所述子任务的子任务初始状态的动作序列。基于所述SNN的输出确定用于完成所述子任务的动作选择方针。
-
公开(公告)号:CN112085279B
公开(公告)日:2022-09-06
申请号:CN202010955099.6
申请日:2020-09-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种交互预测模型的训练和使用方法及装置。在该方法中,首先基于交互事件序列构建动态交互图,从中确定出包含第一节点和第二节点的样本节点对,其对应于样本交互事件。从第一生成网络和第一判别网络分别获取,对应于两个节点各自的生成向量和判别向量。利用第二生成网络,基于两个生成向量预测样本交互事件的发生时间。接着,基于两个生成向量和该预测时间形成第一输入,基于两个判别向量和真实时间形成第二输入,通过第二判别网络,判别第一输入和第二输入各自为真实事件的概率。基于此对抗训练第二生成网络和第二判别网络。训练后的第一生成网络和第二生成网络作为用于预测交互事件的交互预测模型。
-
公开(公告)号:CN111027676B
公开(公告)日:2022-03-18
申请号:CN201911194019.3
申请日:2019-11-28
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种目标用户的选择方法和装置,其中,所述方法包括:对于待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。
-
公开(公告)号:CN112997198A
公开(公告)日:2021-06-18
申请号:CN201980028594.8
申请日:2019-12-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化来更新在所述状态下的动作选择方针。
-
公开(公告)号:CN111258469B
公开(公告)日:2021-05-14
申请号:CN202010022182.8
申请日:2020-01-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F3/0481 , G06Q30/06 , G06N3/04
Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中,首先获取根据交互事件集构建的动态交互图,其中任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点,其中允许对象同时参与多个关联事件,允许节点连接到多于2个的关联节点。然后,在动态交互图中,确定与目标节点对应的目标子图,该目标子图包括从目标节点出发,经由连接边到达的预定范围内的节点;于是,基于该目标子图中包含的各个节点的节点特征,以及节点之间的连接边的指向关系,可以确定目标节点对应的特征向量,以进行业务处理。
-
公开(公告)号:CN112533681A
公开(公告)日:2021-03-19
申请号:CN202080004369.3
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。获得指定了针对所述子任务序列中的子任务的策略神经网络(SNN)的数据。SNN接收包括由达到所述子任务的初始状态的动作序列的输入,并预测所述执行设备针对所述子任务的动作选择方针。所述SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络(VNN)来训练的。确定向SNN的输入。所述输入包括达到所述子任务的子任务初始状态的动作序列。基于所述SNN的输出确定用于完成所述子任务的动作选择方针。
-
公开(公告)号:CN112041875A
公开(公告)日:2020-12-04
申请号:CN201980028669.2
申请日:2019-12-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/02
Abstract: 本文公开了用于生成执行设备的动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:在当前迭代中,基于执行设备的收益以及其他设备到达终点状态的到达概率,计算执行设备在终点状态下的反事实值(CFV);计算执行设备在终点状态下的经基线校正的CFV;对于具有子状态的每个非终点状态,基于执行设备在子状态下的经基线校正的CFV的加权和,计算执行设备在非终点状态下的CFV;计算执行设备在非终点状态下的经基线校正的CFV和CFV基线;确定针对下一次迭代的非终点状态下的动作选择方针。
-
公开(公告)号:CN111737419A
公开(公告)日:2020-10-02
申请号:CN202010759810.0
申请日:2020-07-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F16/36 , G06N5/04
Abstract: 本说明书实施例提供一种机器阅读理解中的数值推理方法和装置。方法包括:获取当前问题和当前文本;确定当前问题和当前文本中包括的各实体和各数字,以及各数字分别对应的类型;构建关系网络图,包括对应于各实体的实体节点,和对应于各数字的数字节点,在相同类型的数字节点之间,以及具有预设关系的实体节点和数字节点之间,通过连接边形成邻居;确定当前问题对应的第一问题表征向量,以及关系网络图中各节点的初始表征向量;基于各节点的初始表征向量,对所述关系网络图中的各节点进行预定次数的迭代,以得到各节点的更新表征向量。能够提高机器阅读理解中的数值推理处理复杂问题的能力。
-
公开(公告)号:CN111523682A
公开(公告)日:2020-08-11
申请号:CN202010631311.3
申请日:2020-07-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种交互预测模型的训练和使用方法及装置。在该方法中,首先基于交互事件序列构建动态交互图,从中确定出属于第一类对象的第一样本节点和属于第二类对象的备选节点。利用表征网络,分别确定各节点的节点向量。然后,将第一样本节点的向量输入生成网络,生成网络从备选节点中选择预测节点。将第一样本节点和预测节点输入判别网络,以确定二者交互的第一概率;还将第一样本节点和对应的第二样本节点输入判别网络,以确定二者交互的第二概率。以增大第二概率,减小第一概率为目标,训练表征网络和判别网络;以增大第一概率为目标,训练表征网络和生成网络。训练后的表征网络和生成网络作为用于预测交互对象的交互预测模型。
-
公开(公告)号:CN111160614A
公开(公告)日:2020-05-15
申请号:CN201911229080.7
申请日:2019-12-04
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供了一种资源转移预测模型的训练方法、装置及计算设备。在一个实施例中,该方法包括:获取多个历史行为数据集合中的多个用户的历史行为特征数据和资源转移数据;将每一个历史行为数据集合对应的历史行为特征数据输入模型,得到每一个历史行为数据集合对应的预测值;聚合每一个历史行为数据集合对应的预测值和资源转移数据,得到每一个历史行为数据集合对应的损失函数;在每一个历史行为数据集合对应的损失函数不满足预设条件的情况下,根据每一个历史行为数据集合对应的损失函数调整模型中的参数;继续迭代,直至损失函数满足预设条件,将参数调整后的模型作为训练后的资源转移预测模型。
-
-
-
-
-
-
-
-
-