一种基于模块化网络的合作智能体模型、学习方法和装置

    公开(公告)号:CN117332814A

    公开(公告)日:2024-01-02

    申请号:CN202311637177.8

    申请日:2023-12-01

    Abstract: 本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中,基于模块化网络的合作智能体学习方法包括:根据合作智能体的观测信息表征数据和身份信息表征数据,利用门控信息提取模块,得到基础网络模块中各个门控单元的门控数据信息;将门控数据信息代入基础网络模块的各个门控单元,利用基础网络模块,处理合作智能体的观测信息表征数据,得到智能体在当前时刻的动作价值函数;根据所有合作智能体的在当前时刻的动作价值函数,执行端到端的训练,更新合作智能体模型的参数,直至达到训练结束条件,得到训练后的合作智能体模型。

    基于集成学习的多智能体信用分配方法、系统、设备

    公开(公告)号:CN115018017A

    公开(公告)日:2022-09-06

    申请号:CN202210924862.8

    申请日:2022-08-03

    Abstract: 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。

    在多任务数据流中持续学习的方法及装置

    公开(公告)号:CN112698933A

    公开(公告)日:2021-04-23

    申请号:CN202110312417.1

    申请日:2021-03-24

    Inventor: 张俊格 李庆明

    Abstract: 本发明提供通用的在多任务数据流中持续学习的方法和装置,包括:智能体采用DQN网络进行策略学习,由任务识别器检测任务边界,防止发生灾难性遗忘;任务识别器采集数据状态,采集到一定长度后进入任务学习阶段,通过任务学习阶段的聚类准确性判断任务学习是否完成,如果完成进入任务识别阶段,如果判定任务发生了改变,则学习下一个任务,在学习下一个任务时,如果改变所述DQN网络的参数,将会启动额外的惩罚项,通过约束所述DQN网络的参数在下个任务学习中变化实现对当前任务的不遗忘。

    通用的非平稳环境中去中心化多智能系统的决策方法

    公开(公告)号:CN112668721A

    公开(公告)日:2021-04-16

    申请号:CN202110286015.9

    申请日:2021-03-17

    Abstract: 本发明提供通用的非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。

    一种对象检测模型的对抗扰动生成方法和装置

    公开(公告)号:CN109902705A

    公开(公告)日:2019-06-18

    申请号:CN201811281358.0

    申请日:2018-10-30

    Abstract: 本发明实施例公开了一种对象检测模型的对抗扰动生成方法和装置。该方法包括:获取第一对抗扰动和第一训练样本集。根据第一训练样本集中的第一训练样本和第一对抗扰动确定出第一对抗样本,基于对象检测模型确定出的第一对抗样本对应的第一目标对象置信度集合对上述第一对抗扰动进行第一次对抗扰动修正,以得到第二对抗扰动。后续每次从第一训练样本集获取新的训练样本后,会基于新的训练样本和上一次对抗扰动修正得到的对抗扰动再次修正得到新的对抗扰动。当N次修正得到的N个对抗扰动收敛时,将第N次对抗扰动修正得到的第N+1对抗扰动确定为对象检测模型对应的目标对抗扰动。采用本发明实施例,可提升对抗扰动生成方法的效率和适用性。

    基于百科知识语义增强的零样本分类方法、装置

    公开(公告)号:CN107292349A

    公开(公告)日:2017-10-24

    申请号:CN201710607191.1

    申请日:2017-07-24

    CPC classification number: G06K9/6267 G06K9/6274

    Abstract: 本发明涉及模式识别、机器学习、计算机视觉领域,提出了一种基于百科知识语义增强的零样本分类方法、装置,旨在解决现有零样本图像分类方法无法兼顾词向量语言信息范围与处理效率的问题,该方法包括:S1,将未知类别图像通过训练好的卷积神经网络分类器进行分类,根据分类概率,对分类结果标签的语义特征进行凸组合作为该未知类别图像的语义特征;S2,将步骤S1中得到的未知类别图像的语义特征与预先构建的语义特征空间中的语义特征,通过最近邻分类器进行分类,得到所述未知类别图像的最终分类。本发明增强词向量的全局信息,以提高图像零样本分类的准确性。

    基于双向递归卷积神经网络的图像超分辨率增强方法

    公开(公告)号:CN106127684A

    公开(公告)日:2016-11-16

    申请号:CN201610458327.2

    申请日:2016-06-22

    CPC classification number: G06T3/4053 G06T5/001 G06T2207/20081

    Abstract: 本发明公开了一种基于双向递归卷积神经网络的图像超分辨率增强方法,包括模型训练和分辨率增强两部分;模型训练:获取多组包含有完全相同内容的高、低分辨率图像,并通过滑动窗口的方法提取高、低分辨率图像块序列,进而训练双向递归卷积神经网络模型;分辨率增强:将待处理低分辨率图像通过滑动窗口的方法分割成一组待处理低分辨率图像块,通过训练好的双向递归卷积神经网络模型生成对应的高分辨率图像块并融合为对应的高分辨率图像。该方法充分利用了双向递归卷积神经网络学习相邻图像块空间位置关系,进而得到包含有更多边缘纹理等细节信息的高分辨率图像。

    多智能体通信方法、装置、存储介质和电子设备

    公开(公告)号:CN117579358B

    公开(公告)日:2024-09-06

    申请号:CN202311586285.7

    申请日:2023-11-24

    Inventor: 张俊格 乔丹 陈皓

    Abstract: 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。

    一种基于知识增强的连续学习软标签构建方法

    公开(公告)号:CN117743858B

    公开(公告)日:2024-07-19

    申请号:CN202410183536.5

    申请日:2024-02-19

    Abstract: 本发明涉及人工智能技术领域,提供了一种基于知识增强的连续学习软标签构建方法,该方法包括:随机初始化语义软标签,计算语义Gram矩阵,通过语义Gram矩阵、词向量Gram矩阵和相应类别平滑后的语义软标签,获得优化后的语义软标签损失函数;随机初始化知识蒸馏软标签,计算知识蒸馏Gram矩阵,通过知识蒸馏Gram矩阵、嵌入Gram矩阵和相应类别平滑后的知识蒸馏软标签,获得优化后的知识蒸馏软标签损失函数;将上述两种损失函数结合,获得总损失函数;将所述总损失函数用于新任务的训练。本发明解决了在神经网络模型连续学习过程中缺乏旧任务数据的问题,避免了灾难性遗忘的效果。

    多智能体通信方法、装置、存储介质和电子设备

    公开(公告)号:CN117579358A

    公开(公告)日:2024-02-20

    申请号:CN202311586285.7

    申请日:2023-11-24

    Inventor: 张俊格 乔丹 陈皓

    Abstract: 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。

Patent Agency Ranking