-
公开(公告)号:CN112437690B
公开(公告)日:2024-07-12
申请号:CN202080003374.2
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务,训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入,并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列,并预测执行设备在先前子任务的子任务状态下的动作选择方针。
-
公开(公告)号:CN112041811B
公开(公告)日:2022-09-16
申请号:CN201980028438.1
申请日:2019-12-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F8/30
Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:识别一个状态下的多个可能动作,其中,该状态对应于信息集向量;识别该状态下的当前动作选择方针向量,其中,当前动作选择方针向量中的每个当前动作选择方针对应于信息集向量中的一个信息集;基于该状态下的当前动作选择方针向量计算采样方针;根据采样方针中指定的该状态下的多个可能动作中的一个动作的采样概率,对该动作进行采样;基于该动作更新执行设备在该状态下的每个当前动作选择方针。
-
公开(公告)号:CN111210008B
公开(公告)日:2022-05-24
申请号:CN202010022183.2
申请日:2020-01-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中,首先获取根据交互事件集构建的动态交互图,图中的任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点,其中,允许对象同时参与多个关联事件,允许节点连接到多于2个的关联节点。然后,在动态交互图中,确定与待分析的当前节点对应的当前子图,并将当前子图输入神经网络模型进行处理。神经网络模型包括LSTM层,LSTM层根据当前子图中各个节点之间的连接边的指向关系,依次迭代处理各个节点,从而得到当前节点的隐含向量。
-
公开(公告)号:CN112041875B
公开(公告)日:2022-04-22
申请号:CN201980028669.2
申请日:2019-12-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/02
Abstract: 本文公开了用于生成执行设备的动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:在当前迭代中,基于执行设备的收益以及其他设备到达终点状态的到达概率,计算执行设备在终点状态下的反事实值(CFV);计算执行设备在终点状态下的经基线校正的CFV;对于具有子状态的每个非终点状态,基于执行设备在子状态下的经基线校正的CFV的加权和,计算执行设备在非终点状态下的CFV;计算执行设备在非终点状态下的经基线校正的CFV和CFV基线;确定针对下一次迭代的非终点状态下的动作选择方针。
-
公开(公告)号:CN112437690A
公开(公告)日:2021-03-02
申请号:CN202080003374.2
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务,训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入,并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列,并预测执行设备在先前子任务的子任务状态下的动作选择方针。
-
公开(公告)号:CN112200380A
公开(公告)日:2021-01-08
申请号:CN202011147798.4
申请日:2020-10-23
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种优化风险检测模型的方法和装置,该方法包括,首先获取样本集,其中包括具有第一标签值的正常样本和具有第二标签值的原始风险样本。对于各个原始风险样本,根据训练风险检测模型使用的损失函数以及当前的风险检测模型,确定攻击者对该原始风险样本进行潜在攻击变换而得到的对抗风险样本。然后基于损失函数,确定风险检测模型针对各个对抗风险样本的第一预测损失,以及针对各个正常样本的第二预测损失;并至少基于该第一和第二预测损失,确定总预测损失。接着,以总预测损失最小化为目标,调整风险检测模型的模型参数,以优化该风险检测模型。
-
公开(公告)号:CN111210008A
公开(公告)日:2020-05-29
申请号:CN202010022183.2
申请日:2020-01-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中,首先获取根据交互事件集构建的动态交互图,图中的任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点,其中,允许对象同时参与多个关联事件,允许节点连接到多于2个的关联节点。然后,在动态交互图中,确定与待分析的当前节点对应的当前子图,并将当前子图输入神经网络模型进行处理。神经网络模型包括LSTM层,LSTM层根据当前子图中各个节点之间的连接边的指向关系,依次迭代处理各个节点,从而得到当前节点的隐含向量。
-
公开(公告)号:CN115081589B
公开(公告)日:2024-11-26
申请号:CN202210602804.3
申请日:2020-01-09
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/0442 , G06N3/08
Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中,首先获取根据交互事件集构建的动态交互图,图中的任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点,其中,允许对象同时参与多个关联事件,允许节点连接到多于2个的关联节点。然后,在动态交互图中,确定与待分析的当前节点对应的当前子图,并将当前子图输入神经网络模型进行处理。神经网络模型包括LSTM层,LSTM层根据当前子图中各个节点之间的连接边的指向关系,依次迭代处理各个节点,从而得到当前节点的隐含向量。
-
公开(公告)号:CN112507074A
公开(公告)日:2021-03-16
申请号:CN202011436272.8
申请日:2020-07-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F16/36 , G06N5/04
Abstract: 本说明书实施例提供一种机器阅读理解中的数值推理方法和装置。方法包括:获取当前问题和当前文本;确定当前问题和当前文本中包括的各实体和各数字,以及各数字分别对应的类型;构建关系网络图,包括对应于各实体的实体节点,和对应于各数字的数字节点,在相同类型的数字节点之间,以及具有预设关系的实体节点和数字节点之间,通过连接边形成邻居;确定当前问题对应的第一问题表征向量,以及关系网络图中各节点的初始表征向量;基于各节点的初始表征向量,对所述关系网络图中的各节点进行预定次数的迭代,以得到各节点的更新表征向量。能够提高机器阅读理解中的数值推理处理复杂问题的能力。
-
公开(公告)号:CN112085279A
公开(公告)日:2020-12-15
申请号:CN202010955099.6
申请日:2020-09-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种交互预测模型的训练和使用方法及装置。在该方法中,首先基于交互事件序列构建动态交互图,从中确定出包含第一节点和第二节点的样本节点对,其对应于样本交互事件。从第一生成网络和第一判别网络分别获取,对应于两个节点各自的生成向量和判别向量。利用第二生成网络,基于两个生成向量预测样本交互事件的发生时间。接着,基于两个生成向量和该预测时间形成第一输入,基于两个判别向量和真实时间形成第二输入,通过第二判别网络,判别第一输入和第二输入各自为真实事件的概率。基于此对抗训练第二生成网络和第二判别网络。训练后的第一生成网络和第二生成网络作为用于预测交互事件的交互预测模型。
-
-
-
-
-
-
-
-
-