-
公开(公告)号:CN104217225A
公开(公告)日:2014-12-17
申请号:CN201410442817.4
申请日:2014-09-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种视觉目标检测与标注方法,包括:图像输入步骤,输入待检测图像;候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域;特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述;视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对候选区域进行预测,估计存在所述视觉目标的区域;位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。实验表明本发明与主流弱监督视觉目标检测与标注方法相比,具有更强的正样本挖掘能力和更一般的应用前景,适合于在大规模数据集上的视觉目标检测与自动标注任务。
-
公开(公告)号:CN117743858A
公开(公告)日:2024-03-22
申请号:CN202410183536.5
申请日:2024-02-19
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/2415 , G06F18/2431 , G06N3/096 , G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明涉及人工智能技术领域,提供了一种基于知识增强的连续学习软标签构建方法,该方法包括:随机初始化语义软标签,计算语义Gram矩阵,通过语义Gram矩阵、词向量Gram矩阵和相应类别平滑后的语义软标签,获得优化后的语义软标签损失函数;随机初始化知识蒸馏软标签,计算知识蒸馏Gram矩阵,通过知识蒸馏Gram矩阵、嵌入Gram矩阵和相应类别平滑后的知识蒸馏软标签,获得优化后的知识蒸馏软标签损失函数;将上述两种损失函数结合,获得总损失函数;将所述总损失函数用于新任务的训练。本发明解决了在神经网络模型连续学习过程中缺乏旧任务数据的问题,避免了灾难性遗忘的效果。
-
公开(公告)号:CN117065354A
公开(公告)日:2023-11-17
申请号:CN202310981366.0
申请日:2023-08-04
Applicant: 中国科学院自动化研究所
IPC: A63F13/67
Abstract: 本发明提供一种基于子空间感知的多智能体探索方法和设备,该方法包括:获取多智能体与游戏仿真环境交互得到的多组仿真数据;从多组仿真数据中选取至少一组目标仿真数据,并确定每一组目标仿真数据中多智能体的输出动作分别对应不同维度的状态子空间的团队奖励;基于任意一组目标仿真数据中多智能体的输出动作分别对应不同维度的状态子空间的团队奖励,更新任意一组目标仿真数据中多智能体的输出动作对应的初始团队奖励;在各组目标仿真数据中多智能体的输出动作对应的初始团队奖励更新完成后,基于更新后的至少一组目标仿真数据,更新多智能体的参数,使得智能体的探索方向可以被控制,提高了多智能体的探索效率。
-
公开(公告)号:CN115660110B
公开(公告)日:2023-04-14
申请号:CN202211672682.1
申请日:2022-12-26
Applicant: 中国科学院自动化研究所
IPC: G06N20/00
Abstract: 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。
-
公开(公告)号:CN115618754B
公开(公告)日:2023-04-07
申请号:CN202211631819.9
申请日:2022-12-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种多智能体的价值评估方法、装置和可读储存介质,涉人工智能技术领域,旨在解决针对多智能体,价值评估模块进行价值评估过程中,忽略了联合动作的作用,导致价值评估模块的价值评估在联合行动空间上的泛化性较差的技术问题,本发明提供的多智能体的价值评估方法以互信息最大化的方法来更新联合动作映射模型中的映射函数,使得联合动作映射与状态转移向量之间的互信息最大化,即使得联合动作映射的映射向量中蕴含丰富的状态转移信息,也即在通过价值评估模块进行价值评估之前,能够知道联合动作的各种结果信息,这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。
-
公开(公告)号:CN112668721B
公开(公告)日:2021-07-02
申请号:CN202110286015.9
申请日:2021-03-17
Applicant: 中国科学院自动化研究所
IPC: G06N5/04
Abstract: 本发明提供非平稳环境中去中心化多智能系统的决策方法,包括:在回合t将智能体m拉取臂k得到的回报值记录在智能体m的内嵌私有表;如果公共调度中心信息储存表中没有臂k的回报值和序号记录,则在回合t+1广播所述臂k的回报值和序号;否则进入下一步判断;如果所述臂k的回报值大于经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述臂k的回报置信区间下界大于所述经验平均最高回报值,则进入下一步判断;否则在回合t+1拉取臂探索;如果所述最近τ个回合臂k回报的波动率大于最近τ个回合臂k回报的波动率的移动平均数,则在回合t+1广播所述臂k的回报值和序号;否则在回合t+1拉取臂探索。
-
公开(公告)号:CN108154464B
公开(公告)日:2020-09-22
申请号:CN201711276935.2
申请日:2017-12-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及图像处理领域,具体提供了一种基于强化学习的图片自动裁剪的方法及装置,旨在解决如何快速地获得精确的图片裁剪结果的技术问题。为此目的,本发明中的基于强化学习的图片自动裁剪的方法,包括步骤:利用强化学习模型对当前裁剪窗口进行特征提取获得局部特征,并将其与待裁剪图片的全局特征进行拼接,得到新的特征向量,将新的特征向量作为当前观测信息;利用强化学习模型得到的历史观测信息与当前观测信息结合作为当前的状态表示;根据裁剪策略以及当前的状态表示,对待裁剪图片序列化地执行裁剪动作,得到裁剪结果;其中,强化学习模型为基于卷积神经网络构建的模型。通过本发明可以快速地获取准确的图片裁剪结果。
-
公开(公告)号:CN106127684B
公开(公告)日:2019-03-15
申请号:CN201610458327.2
申请日:2016-06-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双向递归卷积神经网络的图像超分辨率增强方法,包括模型训练和分辨率增强两部分;模型训练:获取多组包含有完全相同内容的高、低分辨率图像,并通过滑动窗口的方法提取高、低分辨率图像块序列,进而训练双向递归卷积神经网络模型;分辨率增强:将待处理低分辨率图像通过滑动窗口的方法分割成一组待处理低分辨率图像块,通过训练好的双向递归卷积神经网络模型生成对应的高分辨率图像块并融合为对应的高分辨率图像。该方法充分利用了双向递归卷积神经网络学习相邻图像块空间位置关系,进而得到包含有更多边缘纹理等细节信息的高分辨率图像。
-
公开(公告)号:CN102750709B
公开(公告)日:2015-12-09
申请号:CN201210176959.1
申请日:2012-05-31
Applicant: 中国科学院自动化研究所 , 爱思开电讯投资(中国)有限公司
Abstract: 本发明涉及一种利用视频检测打架行为的方法和装置,所述方法包括如下步骤:从所述视频中获取多个连续视频帧;从多个连续视频帧中提取运动前景;从运动前景中检测运动对象;判断多个连续视频帧中是否存在至少两个运动对象,如果存在,则继续执行下面的步骤,如果不存在,则判断未发生打架行为;计算多个连续视频帧中各运动对象相互之间的距离,如果该距离小于一个指定阈值,则继续执行下面的步骤,如果该距离不小于该指定阈值,则判断未发生打架行为;计算多个连续视频帧中覆盖至少两个运动对象的最小矩形框的面积的面积变化强度的大小来判断是否发生打架行为;其中,所述面积变化强度是表示面积连续变化时的变化速率的一个参量。本发明能够有效减少打架行为检测的误报率。
-
公开(公告)号:CN117332814B
公开(公告)日:2024-08-09
申请号:CN202311637177.8
申请日:2023-12-01
Applicant: 中国科学院自动化研究所
IPC: G06N3/0442 , G06N3/045 , G06N3/092
Abstract: 本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中,基于模块化网络的合作智能体学习方法包括:根据合作智能体的观测信息表征数据和身份信息表征数据,利用门控信息提取模块,得到基础网络模块中各个门控单元的门控数据信息;将门控数据信息代入基础网络模块的各个门控单元,利用基础网络模块,处理合作智能体的观测信息表征数据,得到智能体在当前时刻的动作价值函数;根据所有合作智能体的在当前时刻的动作价值函数,执行端到端的训练,更新合作智能体模型的参数,直至达到训练结束条件,得到训练后的合作智能体模型。
-
-
-
-
-
-
-
-
-