多智能体信用分配方法、装置、可读存储介质和智能体

    公开(公告)号:CN115660110A

    公开(公告)日:2023-01-31

    申请号:CN202211672682.1

    申请日:2022-12-26

    Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。

    多智能体的价值评估方法、装置和可读储存介质

    公开(公告)号:CN115618754A

    公开(公告)日:2023-01-17

    申请号:CN202211631819.9

    申请日:2022-12-19

    Abstract: 本发明提供了一种多智能体的价值评估方法、装置和可读储存介质,涉人工智能技术领域,旨在解决针对多智能体,价值评估模块进行价值评估过程中,忽略了联合动作的作用,导致价值评估模块的价值评估在联合行动空间上的泛化性较差的技术问题,本发明提供的多智能体的价值评估方法以互信息最大化的方法来更新联合动作映射模型中的映射函数,使得联合动作映射与状态转移向量之间的互信息最大化,即使得联合动作映射的映射向量中蕴含丰富的状态转移信息,也即在通过价值评估模块进行价值评估之前,能够知道联合动作的各种结果信息,这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。

    基于深度强化学习网络构建多样化搜索策略的模型的方法

    公开(公告)号:CN113962390B

    公开(公告)日:2022-04-01

    申请号:CN202111565916.8

    申请日:2021-12-21

    Abstract: 本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法,上述方法基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。

    基于深度强化学习网络构建对区域敏感的模型的方法

    公开(公告)号:CN114004370A

    公开(公告)日:2022-02-01

    申请号:CN202111614735.X

    申请日:2021-12-28

    Abstract: 本公开涉及一种基于深度强化学习网络构建对区域敏感的模型的方法,该方法包括:获取初始化状态下的智能体对图像仿真环境进行搜索的搜索数据;根据搜索数据,生成注意力图,并对注意力图进行离散化处理;将搜索数据中的位置状态信息和离散化处理后的注意力图输入至初始化的虚拟奖励模型中,输出得到虚拟奖励信息;根据虚拟奖励信息来更新搜索数据中的奖励信息,并对应更新智能体的搜索策略模型和更新虚拟奖励模型;根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型为能够区分相似图像的图像搜索模型。该方法能够对相似图像针对性地采取不同的搜索策略。

    基于动作剪枝的推荐方法、装置、电子设备与存储介质

    公开(公告)号:CN113626720A

    公开(公告)日:2021-11-09

    申请号:CN202111185124.8

    申请日:2021-10-12

    Abstract: 本发明提供一种基于动作剪枝的推荐方法、装置、电子设备与存储介质,包括:基于目标用户的用户特征和各待推荐内容的内容特征,确定各待推荐内容对应的状态;基于各待推荐内容对应的状态和评分预测模型,预测各待推荐内容的评分,并基于各待推荐内容的评分,向目标用户进行推荐;评分预测模型是强化学习得到的,在强化学习过程中,评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值,并基于遗憾值大于预设阈值的候选评分进行评分预测,遗憾值集合存储有历史状态及其对应的遗憾值,遗憾值基于历史状态下各候选评分的优势确定,历史状态是在当前样本状态之前的样本状态,加快强化学习的收敛速度,实现对用户进行个性化的精确推荐。

    通用的多智能体博弈算法
    36.
    发明公开

    公开(公告)号:CN112755538A

    公开(公告)日:2021-05-07

    申请号:CN202110370381.2

    申请日:2021-04-07

    Abstract: 本发明提供通用的多智能体博弈算法,包括:AERUCT搜索算法:根据当前的血量和胜率自适应的调整探索比,进行前向搜索,根据当前状态计算搜索方向的评估值,根据所述搜索方向的评估值来选择下一步搜索方向;所述AERUCT搜索算法为改进的UCT搜索算法;AERUCT搜索算法在小规模游戏场景中性能会有所提升,但由于大规模游戏场景搜索决策的节点数增多且受时间限制,UCTRL算法通过存储更新性能好的策略与AERUCT搜索的结果比较,评估选择胜率大的子节点,反向更新状态信息,如此反复,保证当前策略不差于之前的策略,使每个智能体更智能,提高学习能力。

    二维图像人体关节点定位模型的构建方法及定位方法

    公开(公告)号:CN106548194B

    公开(公告)日:2019-10-15

    申请号:CN201610865293.9

    申请日:2016-09-29

    Abstract: 本发明涉及一种二维图像人体关节点定位模型的构建方法及基于该构建方法的定位方法。其中,该构建方法包括:利用标记完人体关节点位置坐标和遮挡状态的彩色图像,构建人体部件局部特征训练样本集和人体部件全局构型样本集;构建深度卷积神经网络,利用所述人体部件局部特征训练样本集来训练所述深度卷积神经网络,得到人体部件局部表观模型;利用所述人体部件局部表观模型和所述人体部件全局构型样本集,得到遮挡关系图模型;将所述人体部件局部表观模型和所述遮挡关系图模型确定为二维图像人体关节点定位模型。通过本发明实施例解决了如何对二维图像中人体关节点进行准确和鲁棒地定位的技术问题。

    一种视觉目标检测与标注方法

    公开(公告)号:CN104217225B

    公开(公告)日:2018-04-24

    申请号:CN201410442817.4

    申请日:2014-09-02

    Abstract: 本发明公开了一种视觉目标检测与标注方法,包括:图像输入步骤,输入待检测图像;候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域;特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述;视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对候选区域进行预测,估计存在所述视觉目标的区域;位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。实验表明本发明与主流弱监督视觉目标检测与标注方法相比,具有更强的正样本挖掘能力和更一般的应用前景,适合于在大规模数据集上的视觉目标检测与自动标注任务。

    一种图像处理方法及系统
    39.
    发明公开

    公开(公告)号:CN107391505A

    公开(公告)日:2017-11-24

    申请号:CN201610322369.3

    申请日:2016-05-16

    Inventor: 张俊格

    Abstract: 本发明实施例公开了一种图像处理方法,包括:通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;从所述语义文本特征中提取出第一空间结构信息;根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。本发明还公开一种图像处理系统,采用本发明,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

    一种基于数据与任务驱动的图像分类方法

    公开(公告)号:CN103984959A

    公开(公告)日:2014-08-13

    申请号:CN201410224860.3

    申请日:2014-05-26

    Abstract: 本发明公开了一种基于数据与任务驱动的图像分类方法,该方法包括:根据数据集规模与图像内容设计卷积神经网络结构;使用给定分类数据集对卷积神经网络模型进行训练;使用训练后的卷积神经网络对训练集图像提取特征表达;将测试图像输入训练后的卷积神经网络,并进行分类。本发明方法基于非线性卷积特征学习,可以以数据驱动的方式实现模型对数据集的自适应,从而更好的描述特定的数据集,通过任务驱动的方式直接对K近邻的误差进行优化,使其能够在K近邻任务上取得更好的性能;并且在训练阶段可以采用GPU进行高效训练,在测试阶段只需使用CPU就可以实现高效的K近邻图像分类,非常适用于大规模的图像分类、检索等任务。

Patent Agency Ranking