一种基于自监督强化学习的即时奖励学习方法

    公开(公告)号:CN117933346A

    公开(公告)日:2024-04-26

    申请号:CN202410339613.1

    申请日:2024-03-25

    Abstract: 本发明公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。

    一种训练样本筛选方法及装置
    52.
    发明公开

    公开(公告)号:CN117932335A

    公开(公告)日:2024-04-26

    申请号:CN202410021912.0

    申请日:2024-01-05

    Abstract: 在本说明书提供的一种训练样本筛选方法及装置中,获取待训练的分类模型,通过迭代筛选训练样本进行标注,更新已标注样本池,该已标注样本池用于训练该分类模型,直至分类模型达到收敛条件为止,其中,针对每一迭代过程,通过分类模型确定各训练样本的当前预测概率分布,获取各训练样本的历史预测概率分布,根据历史预测概率分布、当前预测概率分布以及确定的已标注样本池中各类别标注分别对应的训练样本的占比,确定总分值,按照总分值的排序,筛选训练样本进行标注。考虑了训练样本的历史信息以及训练样本为各类别标注的倾向,以及通过总分值进行训练样本的筛选,通用性更高,提高了训练效率。

    数据交集生成方法、数据交集生成装置和存储介质

    公开(公告)号:CN117614619A

    公开(公告)日:2024-02-27

    申请号:CN202311539138.4

    申请日:2023-11-17

    Abstract: 本申请涉及一种数据交集生成方法、数据交集生成装置和存储介质,其中,该数据交集生成方法包括:接收第一初始密文和第二初始密文;其中,第一初始密文为第一客户端的参与数据密文;第二初始密文为第二客户端的参与数据密文;基于非对称密钥,对第一初始密文和第二初始密文进行解密、相乘运算,加密得到目标相乘密文;将目标相乘密文发送至第一客户端和第二客户端;第一客户端和第二客户端分别持有针对目标相乘密文的客户端私钥通过本申请,解决了PSI协议求交集合无法在数据云外包场景适用的问题,实现了数据的高效和安全使用。

    知识图谱构建方法、资源查找方法、计算机设备和介质

    公开(公告)号:CN116910277B

    公开(公告)日:2024-02-27

    申请号:CN202311179454.5

    申请日:2023-09-13

    Abstract: 本申请涉及一种知识图谱构建方法、资源查找方法、计算机设备和介质,通过获取资源对应的数据集,其中,资源包括天文学领域数据,数据集包括多个关键词以及每个关键词的属性,关键词的属性包括关键词在多个资源中的第一权重和关键词对应的资源标识;根据第一权重确定主关键词和副关键词,并将属于同一研究方向的副关键词与主关键词关联,其中,主关键词的第一权重大于副关键词的第一权重;分别在主关键词和副关键词之间构建知识图谱,其中,分别将主关键词和副关键词作为节点,将对应的资源标识和第一权重作为节点属性,将语义关系作为边,构建相应知识图谱,降低了知识图谱的规模,实现了关键词的交叉检索。

    基于值分布的多智能体协同控制方法、装置、设备和介质

    公开(公告)号:CN117574949A

    公开(公告)日:2024-02-20

    申请号:CN202410067319.X

    申请日:2024-01-17

    Abstract: 本申请涉及一种基于值分布的多智能体协同控制方法、装置、设备和介质,基于值分布的多智能体协同控制方法包括:构建每个智能体的初始价值网络和多个智能体的初始分布混合网络;基于各所述智能体的采样数据,对所述初始分布混合网络和各所述智能体的初始价值网络进行训练,通过最小化所述全局价值分布的损失函数优化所述分布混合网络以及各所述智能体的价值网络的网络参数,并满足全局价值分布的期望最大、每个智能体的确定性价值最大的约束关系,得到训练好的各所述智能体的价值网络;根据自身的观测及训练好的价值网络,各所述智能体执行各自的所述最优动作,扩展了神经网络表达能力,提高多智能体系统更高效的决策和合作,提升整体性能和效果。

    联邦学习的客户端选择方法、装置和计算机存储介质

    公开(公告)号:CN117130794B

    公开(公告)日:2024-02-06

    申请号:CN202311404191.3

    申请日:2023-10-27

    Abstract: 本申请涉及一种联邦学习的客户端选择方法、装置和计算机存储介质,所述方法包括:基于所有客户端的上一迭代轮次的损失值和本地数据集大小,确定当前迭代轮次中各客户端的单轮权重系数,根据各客户端的单轮权重系数和上一迭代轮次的历史权重系数,调整当前迭代轮次中各客户端的选择权重;根据当前迭代轮次所处的迭代轮次区间和预设的客户端选择数量阈值,确定当前迭代轮次的客户端选择数量;基于选择权重和客户端选择数量,选取当前迭代轮次的目标客户端。采用本方法解决了现有技术中限制客户端数量减少通信成本造成全局模型性能损失的问题,并将历史权重融入客户端的选取过程,平衡了联邦学习的训练效率和通信成本。

    基于联邦学习的数据保护方法、装置和系统

    公开(公告)号:CN117332451A

    公开(公告)日:2024-01-02

    申请号:CN202311437621.1

    申请日:2023-10-31

    Abstract: 本申请涉及一种基于联邦学习的数据保护方法、装置和系统,其中,该基于联邦学习的数据保护方法包括:发送联邦学习请求至云端服务器,联邦学习请求包括用户标识;当云端服务器接收的联邦学习请求的用户数量超过预设的数量阈值后,接收云端服务器发送的所有用户标识,并根据用户标识获取目标输入数据;根据目标输入数据,生成加密后的用户数据的密文数据和签名数据,并发送密文数据和签名数据至云端服务器,以使云端服务器生成聚合结果;接收并解密云端服务器发送的聚合结果,根据解密后的聚合结果更新用户模型,以实现用户模型的数据的保护。通过本申请,实现了横向联邦学习中用户的数据安全,进而保护用户隐私。

Patent Agency Ranking