-
公开(公告)号:CN119513292B
公开(公告)日:2025-05-13
申请号:CN202411250877.6
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
IPC: G06F16/335 , G06F40/16 , G06N5/04 , G06F40/35
Abstract: 本发明提供一种基于大语言模型增强的推荐策略生成方法及相关设备。其中,方法包括获取推荐任务;将所述推荐任务输入至智能体,获取所述智能体输出的推荐策略;其中,所述智能体是基于样本推荐任务和大语言模型进行训练得到的,所述大语言模型用于基于所述样本推荐任务预测用户行为。本发明通过将大语言模型与强化学习智能体相结合,有效解决了传统方法难以快速提供准确的推荐策略的问题,实现了在提高推荐策略的准确性和个性化程度的同时,也提升了推荐系统的效率和适应性。
-
公开(公告)号:CN117973554B
公开(公告)日:2025-03-21
申请号:CN202311865731.8
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种视觉变化环境的强化学习泛化方法及装置,包括:将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;使用增强函数对原始状态进行增强,得到原始状态对应的增强状态;对原始状态以及增强状态分别加入显著性引导信息,结合回放池中的数据以及增强状态获取智能体的价值一致性损失,基于价值一致性损失更新智能体的价值网络及表征网络;获取原始状态以及增强状态对应的智能体的策略一致性损失,基于策略一致性损失更新智能体的策略网络;通过动力学模型获取原始状态以及增强状态对应的智能体的动力学损失,基于动力学损失更新智能体的表征网络与动力学模型。
-
公开(公告)号:CN117973554A
公开(公告)日:2024-05-03
申请号:CN202311865731.8
申请日:2023-12-29
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种视觉变化环境的强化学习泛化方法及装置,包括:将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;使用增强函数对原始状态进行增强,得到原始状态对应的增强状态;对原始状态以及增强状态分别加入显著性引导信息,结合回放池中的数据以及增强状态获取智能体的价值一致性损失,基于价值一致性损失更新智能体的价值网络及表征网络;获取原始状态以及增强状态对应的智能体的策略一致性损失,基于策略一致性损失更新智能体的策略网络;通过动力学模型获取原始状态以及增强状态对应的智能体的动力学损失,基于动力学损失更新智能体的表征网络与动力学模型。
-
公开(公告)号:CN111105034B
公开(公告)日:2023-11-17
申请号:CN201911343902.4
申请日:2019-12-24
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/098 , G06N3/084 , G06N3/0464 , G06N3/048 , G06F18/214
Abstract: 本发明属于学习算法领域,具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统,旨在为了解决解决多智能体信誉分配问题。本发明方法包括:基于多智能体的运行环境,定义全局状态;基于局部观测量,通过预设的Q网络模型,获取各智能体对应的执行动作;获取各智能体对应的经验数据对,并增入经验池;从经验回放池中随机获取训练样本,训练并更新Q网络模型的权重;每隔设定的步长,将基于Q网络模型的权重更新目标Q网络模型;重复上述Q网络模型权重优化步骤,直至达到训练结束条件,获取最后一次权重更新的Q网络模型。本发明实现了完全合作多智能体间的信誉分配,进而实现了多智能体的协同决策,而且收敛快,效率高。
-
公开(公告)号:CN116796797A
公开(公告)日:2023-09-22
申请号:CN202310707540.2
申请日:2023-06-14
Applicant: 中国科学院自动化研究所
IPC: G06N3/045 , G06N3/086 , G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明涉及人工智能领域,提供一种网络架构搜索方法、图像分类方法、装置和电子设备,其中搜索方法包括:获取初始网络结构,并基于所述初始网络结构的各结构参数,确定搜索空间;基于所述搜索空间搭建超网络,并基于第一样本图像对所述超网络进行预训练,得到预训练超网络的预训练权重;基于当前演化代数下候选突变操作的自适应概率分布,采用演化算法对当前演化代数下的网络结构进行搜索优化,得到下一演化代数下的网络结构,直至停止演化,得到目标网络结构。本发明提供的网络架构搜索方法、图像分类方法、装置和电子设备,提高了搜索效率,可以稳定且高效地实现对高性能的小规模ViT网络的优化。
-
公开(公告)号:CN113894780B
公开(公告)日:2023-05-05
申请号:CN202111136603.0
申请日:2021-09-27
Applicant: 中国科学院自动化研究所
IPC: B25J9/16
Abstract: 本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,其中方法包括:获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质,利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。
-
公开(公告)号:CN110415277B
公开(公告)日:2022-03-08
申请号:CN201910669359.0
申请日:2019-07-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于智能驾驶领域,具体涉及一种基于光流和卡尔曼滤波的多目标追踪方法、系统、装置,旨在解决多目标追踪过分依赖于检测及匹配难度大的问题。本系统方法包括获取输入视频中t时刻的图像帧;对图像帧进行多目标检测,构建检测目标的目标区域集合;根据t‑1时刻追踪到的目标,通过预设的追踪模型分别预测目标在t时刻图像帧中对应的目标区域,构建预测目标的目标区域集合;对检测目标、预测目标的目标区域集合,通过区域相似度,以及匈牙利算法获取两个目标区域集合中目标区域匹配关系;将检测目标的目标区域集合中匹配成功的目标区域作为t时刻追踪到的目标区域。本发明实现多目标的准确预测,提高了多帧目标的位置匹配及追踪的准确率。
-
公开(公告)号:CN103324085B
公开(公告)日:2016-03-02
申请号:CN201310232043.8
申请日:2013-06-09
Applicant: 中国科学院自动化研究所
IPC: G05B13/02
Abstract: 本发明提出一种基于监督式强化学习的最优控制方法,包括步骤:步骤1,初始化控制器和评价器的人工神经网络的权值等参数,及一组训练数据集;步骤2,选择一组系统状态开始迭代;步骤3,监督式控制器产生初始稳定的控制策略,控制器通过调整自身权值逼近该控制策略;步骤4,控制器生成相应的控制动作,并附加一定的随机噪声作为探索;步骤5,将带有噪声的控制动作施加到被控制的系统上,观测下一时刻系统的状态和回报;步骤6,调整控制器和评价器的人工神经网络的权重;步骤7,判断当前状态是否满足终止条件,是则进入步骤8,否则回到步骤3;步骤8,判断初始的系统状态数据是否已经全部用于训练,是则输出最终的控制器,否则回到步骤2。
-
公开(公告)号:CN102109821B
公开(公告)日:2013-08-07
申请号:CN201010615914.0
申请日:2010-12-30
Applicant: 中国科学院自动化研究所
Inventor: 赵冬斌
IPC: G05B13/04
Abstract: 一种车辆的自适应巡航控制系统和方法,该系统包括:自适应巡航模式选择单元,用于选择不同的自适应巡航模式;数据采集单元,用于采集车辆的状态变量x(t),该状态变量x(t)被用于控制车辆的速度和车距;控制单元,用于根据采集的车辆状态变量x(t)生成车辆控制变量u(t);评价单元,用于根据数据采集单元采集的车辆状态变量x(t)和控制单元生成的控制变量u(t)对控制效果进行评价,如果评价结果为控制效果不符合要求,则使评价单元和控制单元进行在线学习;油门控制单元和制动控制单元,根据控制单元输出的控制变量u(t),利用车辆动力学逆模型对油门和制动进行控制。利用本发明的系统和方法,使得车辆自适应巡航系统更加安全和人性化。
-
公开(公告)号:CN102799748A
公开(公告)日:2012-11-28
申请号:CN201210291386.7
申请日:2012-08-15
Applicant: 中国科学院自动化研究所
CPC classification number: Y02E20/18
Abstract: 本发明公开了一种煤气化炉的控制方法,该方法包括依次执行的如下步骤:S1、建立与煤气化炉相应的煤气化炉仿真模型,该仿真模型包含若干模型参数;S2、采集煤气化炉在某段时间内的输入数据和输出数据,所述输入数据和输出数据是指煤气化炉的输入、输出物质的成分与含量以及各项工作参数;S3、根据所采集的输入数据和输出数据,计算仿真模型的模型参数的值;S4、采集煤所化炉的实时输入数据和实时输出数据,通过仿真模型计算模拟输出数据与实时输出数据之间的差值,当该差值不在误差范围时,返回步骤S2,否则继续下一步骤;S5、利用仿真模型计算煤气化炉内在当前时刻起的一段时间内的工作状态参数,据此监控和调节煤气化炉的工作状态。本发明能够高效、实时、精确地调整和监控煤气化炉。
-
-
-
-
-
-
-
-
-