-
公开(公告)号:CN119962562A
公开(公告)日:2025-05-09
申请号:CN202411941041.0
申请日:2024-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于不确定性特征的对手建模方法和装置,包括:获取智能体与环境交互过程中的交互数据;交互数据包括当前己方观测数据、当前己方动作数据、当前对手观测数据、当前对手动作数据、第一环境奖励数据和下一步己方观测数据;将当前己方观测数据和当前己方动作数据输入对手建模模型,建模对手的确定性特征和不确定性特征得到模型输出;利用当前对手观测数据、当前对手动作数据、第一环境奖励数据和下一步己方观测数据,以及模型输出计算损失函数;基于损失函数优化模型得到训练后的模型;基于训练后的模型进行对手建模得到对手建模结果。本发明引入了确定性和不确定性混合的特征,从而有效地提高了对具有随机性行为的对手的建模能力。
-
公开(公告)号:CN118395131B
公开(公告)日:2024-11-12
申请号:CN202410843987.7
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种多算子协同侦察方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取兵棋的态势数据,所述态势数据包括:地图合法坐标集合、算子当前坐标集合、当前已观测视野坐标集合、目标观测区域的中心点坐标和区域半径;根据所述态势数据计算地面算子合法根节点坐标,得到地面算子合法根节点坐标集合;通过子节点可行性分析从所述地面算子合法根节点坐标集合中确定目标地面算子合法根节点坐标;根据所述目标地面算子合法根节点坐标和所述态势数据计算空中算子合法根节点坐标,得到空中算子合法根节点坐标集合;通过子节点可行性分析从所述空中算子合法根节点坐标集合中确定目标空中算子合法根节点坐标。
-
公开(公告)号:CN118395131A
公开(公告)日:2024-07-26
申请号:CN202410843987.7
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种多算子协同侦察方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取兵棋的态势数据,所述态势数据包括:地图合法坐标集合、算子当前坐标集合、当前已观测视野坐标集合、目标观测区域的中心点坐标和区域半径;根据所述态势数据计算地面算子合法根节点坐标,得到地面算子合法根节点坐标集合;通过子节点可行性分析从所述地面算子合法根节点坐标集合中确定目标地面算子合法根节点坐标;根据所述目标地面算子合法根节点坐标和所述态势数据计算空中算子合法根节点坐标,得到空中算子合法根节点坐标集合;通过子节点可行性分析从所述空中算子合法根节点坐标集合中确定目标空中算子合法根节点坐标。
-
公开(公告)号:CN108764247A
公开(公告)日:2018-11-06
申请号:CN201810329940.3
申请日:2018-04-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于图像检测技术领域,具体提供了一种基于稠密连接的深度学习物体检测方法及装置,旨在解决现有技术难以准确检测图像中较小物体的问题。为此目的,在本发明基于稠密连接的深度学习物体检测方法中,基于预先构建的物体检测网络模型对输入图像进行物体检测,得到输入图像中物体的分类结果和坐标位置。本发明的方法能够提取输入图像的多尺度特征,从而能够更好地描述图像中的小物体。同时,本发明的装置能够执行上述方法。
-
公开(公告)号:CN117018624A
公开(公告)日:2023-11-10
申请号:CN202310981342.5
申请日:2023-08-04
Applicant: 中国科学院自动化研究所
IPC: A63F13/67 , A63F13/46 , A63F13/58 , A63F13/822
Abstract: 本发明提供一种基于联合策略多样性的多智能体探索方法和设备,该方法包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据,从多组仿真数据中选取至少一组目标仿真数据,基于任意一组目标仿真数据中多智能体的观测数据与输出动作所对应的第一策略概率,确定任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励;基于任意一组目标仿真数据中多智能体的输出动作对应的基于联合策略多样性的团队奖励,更新任意一组目标仿真数据中多智能体的输出动作对应的初始团队奖励,然后更新多智能体的参数和第一策略概率,通过利用策略层面的信息来引导智能体的探索行为,提高了智能体动作的多样性,提升了智能体的探索效率。
-
公开(公告)号:CN113962390B
公开(公告)日:2022-04-01
申请号:CN202111565916.8
申请日:2021-12-21
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法,上述方法基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
-
公开(公告)号:CN114004370A
公开(公告)日:2022-02-01
申请号:CN202111614735.X
申请日:2021-12-28
Applicant: 中国科学院自动化研究所
IPC: G06N20/20 , G06K9/62 , G06V10/764 , G06V10/82
Abstract: 本公开涉及一种基于深度强化学习网络构建对区域敏感的模型的方法,该方法包括:获取初始化状态下的智能体对图像仿真环境进行搜索的搜索数据;根据搜索数据,生成注意力图,并对注意力图进行离散化处理;将搜索数据中的位置状态信息和离散化处理后的注意力图输入至初始化的虚拟奖励模型中,输出得到虚拟奖励信息;根据虚拟奖励信息来更新搜索数据中的奖励信息,并对应更新智能体的搜索策略模型和更新虚拟奖励模型;根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型为能够区分相似图像的图像搜索模型。该方法能够对相似图像针对性地采取不同的搜索策略。
-
公开(公告)号:CN108764247B
公开(公告)日:2020-11-10
申请号:CN201810329940.3
申请日:2018-04-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于图像检测技术领域,具体提供了一种基于稠密连接的深度学习物体检测方法及装置,旨在解决现有技术难以准确检测图像中较小物体的问题。为此目的,在本发明基于稠密连接的深度学习物体检测方法中,基于预先构建的物体检测网络模型对输入图像进行物体检测,得到输入图像中物体的分类结果和坐标位置。本发明的方法能够提取输入图像的多尺度特征,从而能够更好地描述图像中的小物体。同时,本发明的装置能够执行上述方法。
-
公开(公告)号:CN113962390A
公开(公告)日:2022-01-21
申请号:CN202111565916.8
申请日:2021-12-21
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法,上述方法基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
-
公开(公告)号:CN117065354A
公开(公告)日:2023-11-17
申请号:CN202310981366.0
申请日:2023-08-04
Applicant: 中国科学院自动化研究所
IPC: A63F13/67
Abstract: 本发明提供一种基于子空间感知的多智能体探索方法和设备,该方法包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据;从多组仿真数据中选取至少一组目标仿真数据,并确定每一组目标仿真数据中多智能体的输出动作分别对应不同维度的状态子空间的团队奖励;基于任意一组目标仿真数据中多智能体的输出动作分别对应不同维度的状态子空间的团队奖励,更新任意一组目标仿真数据中多智能体的输出动作对应的初始团队奖励;在各组目标仿真数据中多智能体的输出动作对应的初始团队奖励更新完成后,基于更新后的至少一组目标仿真数据,更新多智能体的参数,使得智能体的探索方向可以被控制,提高了多智能体的探索效率。
-
-
-
-
-
-
-
-
-