基于联合策略多样性的多智能体探索方法和设备

    公开(公告)号:CN117018624A

    公开(公告)日:2023-11-10

    申请号:CN202310981342.5

    申请日:2023-08-04

    Abstract: 本发明提供一种基于联合策略多样性的多智能体探索方法和设备,该方法包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据,从多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中多智能体的观测数据与输出动作所对应的第一策略概率,确定任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励;基于任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新任意一组目标仿真数据中多智能体的输出动作对应的初始团队奖励,然后更新多智能体的参数和第一策略概率,通过利用策略层面的信息来引导智能体的探索行为,提高了智能体动作的多样性,提升了智能体的探索效率。

    一种基于数据与任务驱动的图像分类方法

    公开(公告)号:CN103984959B

    公开(公告)日:2017-07-21

    申请号:CN201410224860.3

    申请日:2014-05-26

    Abstract: 本发明公开了一种基于数据与任务驱动的图像分类方法,该方法包括:根据数据集规模与图像内容设计卷积神经网络结构;使用给定分类数据集对卷积神经网络模型进行训练;使用训练后的卷积神经网络对训练集图像提取特征表达;将测试图像输入训练后的卷积神经网络,并进行分类。本发明方法基于非线性卷积特征学习,可以以数据驱动的方式实现模型对数据集的自适应,从而更好的描述特定的数据集,通过任务驱动的方式直接对K近邻的误差进行优化,使其能够在K近邻任务上取得更好的性能;并且在训练阶段可以采用GPU进行高效训练,在测试阶段只需使用CPU就可以实现高效的K近邻图像分类,非常适用于大规模的图像分类、检索等任务。

    基于集成学习的多智能体信用分配方法、系统、设备

    公开(公告)号:CN115018017B

    公开(公告)日:2022-10-28

    申请号:CN202210924862.8

    申请日:2022-08-03

    Abstract: 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。

    不完全信息博弈的决策方法、装置、电子设备与存储介质

    公开(公告)号:CN114429213A

    公开(公告)日:2022-05-03

    申请号:CN202111499250.0

    申请日:2021-12-09

    Abstract: 本发明提供一种不完全信息博弈的决策方法、装置、电子设备与存储介质,所述方法包括:基于各对象组合的当前强度,以及所述各对象组合对应的出路数量,确定所述各对象组合的最终胜率;所述出路数量为有利于所述各对象组合的强度增强的待补充公共对象数量;基于所述各对象组合的最终胜率,构建博弈树;基于所述博弈树,求解纳什均衡策略。本发明提供的方法、装置、电子设备与存储介质,解决了信息抽象技术中对象组合胜率的评估速度慢的难题,实现了缩短均衡分析算法的决策收益计算时间,能够极大地节约CFR的迭代时间,同时可以降低均衡分析算法在不完全信息博弈决策问题中的应用效率,促进不完全信息博弈领域的发展。

    基于深度强化学习网络构建多样化搜索策略的模型的方法

    公开(公告)号:CN113962390A

    公开(公告)日:2022-01-21

    申请号:CN202111565916.8

    申请日:2021-12-21

    Abstract: 本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法,上述方法基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。

    一种基于多智能体的实时战略游戏对局方法

    公开(公告)号:CN112755538B

    公开(公告)日:2021-08-31

    申请号:CN202110370381.2

    申请日:2021-04-07

    Abstract: 本发明提供一种基于多智能体的实时战略游戏对局方法,包括:AERUCT搜索算法:根据当前的血量和胜率自适应的调整探索比,进行前向搜索,根据当前状态计算搜索方向的评估值,根据所述搜索方向的评估值来选择下一步搜索方向;所述AERUCT搜索算法为改进的UCT搜索算法;AERUCT搜索算法在小规模游戏场景中性能会有所提升,但由于大规模游戏场景搜索决策的节点数增多且受时间限制,UCTRL算法通过存储更新性能好的策略与AERUCT搜索的结果比较,评估选择胜率大的子节点,反向更新状态信息,如此反复,保证当前策略不差于之前的策略,使每个智能体更智能,提高学习能力。

    一种图像处理方法及系统

    公开(公告)号:CN107391505B

    公开(公告)日:2020-10-23

    申请号:CN201610322369.3

    申请日:2016-05-16

    Inventor: 张俊格

    Abstract: 本发明实施例公开了一种图像处理方法,包括:通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;从所述语义文本特征中提取出第一空间结构信息;根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。本发明还公开一种图像处理系统,采用本发明,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

    基于强化学习的图片自动裁剪的方法及装置

    公开(公告)号:CN108154464A

    公开(公告)日:2018-06-12

    申请号:CN201711276935.2

    申请日:2017-12-06

    Abstract: 本发明涉及图像处理领域,具体提供了一种基于强化学习的图片自动裁剪的方法及装置,旨在解决如何快速地获得精确的图片裁剪结果的技术问题。为此目的,本发明中的基于强化学习的图片自动裁剪的方法,包括步骤:利用强化学习模型对当前裁剪窗口进行特征提取获得局部特征,并将其与待裁剪图片的全局特征进行拼接,得到新的特征向量,将新的特征向量作为当前观测信息;利用强化学习模型得到的历史观测信息与当前观测信息结合作为当前的状态表示;根据裁剪策略以及当前的状态表示,对待裁剪图片序列化地执行裁剪动作,得到裁剪结果;其中,强化学习模型为基于卷积神经网络构建的模型。通过本发明可以快速地获取准确的图片裁剪结果。

    二维图像人体关节点定位模型的构建方法及定位方法

    公开(公告)号:CN106548194A

    公开(公告)日:2017-03-29

    申请号:CN201610865293.9

    申请日:2016-09-29

    Abstract: 本发明涉及一种二维图像人体关节点定位模型的构建方法及基于该构建方法的定位方法。其中,该构建方法包括:利用标记完人体关节点位置坐标和遮挡状态的彩色图像,构建人体部件局部特征训练样本集和人体部件全局构型样本集;构建深度卷积神经网络,利用所述人体部件局部特征训练样本集来训练所述深度卷积神经网络,得到人体部件局部表观模型;利用所述人体部件局部表观模型和所述人体部件全局构型样本集,得到遮挡关系图模型;将所述人体部件局部表观模型和所述遮挡关系图模型确定为二维图像人体关节点定位模型。通过本发明实施例解决了如何对二维图像中人体关节点进行准确和鲁棒地定位的技术问题。

Patent Agency Ranking