确定执行设备的动作选择方针

    公开(公告)号:CN112041811A

    公开(公告)日:2020-12-04

    申请号:CN201980028438.1

    申请日:2019-12-12

    Inventor: 李辉 宋乐

    Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:识别一个状态下的多个可能动作,其中,该状态对应于信息集向量;识别该状态下的当前动作选择方针向量,其中,当前动作选择方针向量中的每个当前动作选择方针对应于信息集向量中的一个信息集;基于该状态下的当前动作选择方针向量计算采样方针;根据采样方针中指定的该状态下的多个可能动作中的一个动作的采样概率,对该动作进行采样;基于该动作更新执行设备在该状态下的每个当前动作选择方针。

    机器阅读理解中的数值推理方法和装置

    公开(公告)号:CN111737419B

    公开(公告)日:2020-12-04

    申请号:CN202010759810.0

    申请日:2020-07-31

    Abstract: 本说明书实施例提供一种机器阅读理解中的数值推理方法和装置。方法包括:获取当前问题和当前文本;确定当前问题和当前文本中包括的各实体和各数字,以及各数字分别对应的类型;构建关系网络图,包括对应于各实体的实体节点,和对应于各数字的数字节点,在相同类型的数字节点之间,以及具有预设关系的实体节点和数字节点之间,通过连接边形成邻居;确定当前问题对应的第一问题表征向量,以及关系网络图中各节点的初始表征向量;基于各节点的初始表征向量,对所述关系网络图中的各节点进行预定次数的迭代,以得到各节点的更新表征向量。能够提高机器阅读理解中的数值推理处理复杂问题的能力。

    一种目标用户的选择方法和装置

    公开(公告)号:CN111027676A

    公开(公告)日:2020-04-17

    申请号:CN201911194019.3

    申请日:2019-11-28

    Abstract: 本说明书实施例提供一种目标用户的选择方法和装置,其中,所述方法包括:对于待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

Patent Agency Ranking