实现隐私保护的更新强化学习系统的方法及装置

    公开(公告)号:CN111461309A

    公开(公告)日:2020-07-28

    申请号:CN202010302520.3

    申请日:2020-04-17

    Inventor: 尹红军

    Abstract: 本说明书实施例提供一种实现隐私保护的更新强化学习系统的方法,其中强化学习系统包括服务端和N个客户端,服务端部署强化学习模型的公共神经网络,N个客户端中各自部署该强化学习模型的线程神经网络,并各自搭建业务环境,其中强化学习模型用于针对业务环境预测业务动作。在该方法中,每个客户端利用其部署的线程神经网络独立地与其搭建的业务环境进行交互,并利用交互数据计算梯度数据,再对梯度数据进行加密后传输至服务端,服务端对每个客户端传输的加密数据进行汇总解密,得到对应于多个梯度数据的梯度和值,用以集中更新公共神经网络的模型参数。如此,可以在防止客户端中本地隐私数据被泄露的同时,实现多个客户端联合训练强化学习模型。

    利用业务决策模型进行决策处理的方法及装置

    公开(公告)号:CN111445032A

    公开(公告)日:2020-07-24

    申请号:CN202010537464.1

    申请日:2020-06-12

    Inventor: 尹红军 王力 周俊

    Abstract: 本说明书实施例提供一种利用业务决策模型进行决策处理的方法及装置。在该方法中,服务平台可以获取第一业务处理请求,确定第一业务处理请求的第一业务特征;将第一业务特征输入利用强化学习得到的业务决策模型,得到第一业务处理请求针对多个决策行为的第一得分分布;利用多个历史业务处理请求,确定针对第一业务处理请求的决策干预系数,利用决策干预系数,对第一得分分布进行干预处理,得到针对多个决策行为的第二得分分布;基于第二得分分布,从多个决策行为中确定针对第一业务处理请求的决策行为。

Patent Agency Ranking