-
公开(公告)号:CN110211189A
公开(公告)日:2019-09-06
申请号:CN201910423676.4
申请日:2019-05-21
Applicant: 清华大学
Abstract: 本发明公开了一种ToF相机深度误差建模校正方法及装置,其中,该方法包括:获取初始化粒子集和ToF相机深度误差训练样本集,建立ToF相机深度误差模型;通过以ToF相机深度误差训练样本集中的相机测量误差为观测目标真实值,根据状态方程对初始化粒子集中的每个粒子采样,计算每个粒子的ToF相机误差值;计算每个粒子的ToF相机误差值和观测目标真实值的相似性,根据相似性计算每个粒子的权重值,并归一化;根据每个粒子的归一化权重值进行重采样生成最优粒子集,将最优粒子集输入ToF相机深度误差模型以得到测量误差模型。该方法利用机器学习的方法对ToF相机深度误差数据进行建模,从而实现校正相机深度误差的目的。
-
公开(公告)号:CN113779870B
公开(公告)日:2024-08-23
申请号:CN202110975035.7
申请日:2021-08-24
Applicant: 清华大学
IPC: G06F30/27 , G06F18/23213
Abstract: 本申请属于机器学习技术领域,具体而言,涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括:利用非完全回忆聚类方法,对不完美信息博弈的原始特征空间进行压缩,得到抽象特征空间;利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略;利用特征字符串的哈希算法,对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象,提升策略鲁棒性;在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新,使用采样动作频数生成最终策略,结合特征映射和并行框架,提高算法收敛速度,缩短算法训练时间。
-
公开(公告)号:CN114629798B
公开(公告)日:2023-08-18
申请号:CN202210102211.0
申请日:2022-01-27
Applicant: 清华大学
IPC: H04L41/14 , H04L41/16 , G06V10/762 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体协同规划方法、装置、电子设备及存储介质,其中,方法包括:采集中心智能体和对应目标点之间的相对位置;基于相对位置,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,获取定向采样结果,其中,图神经网络由CNN、TOKF‑GraphSAGE和MLP复合构建;利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,解决了信息部分可知情况下对近邻智能体进行定向采样信息的问题,根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。
-
公开(公告)号:CN112070832B
公开(公告)日:2023-02-17
申请号:CN202010790024.7
申请日:2020-08-07
Applicant: 清华大学
Abstract: 本申请公开了一种基于点云DCA特征的非合作目标位姿跟踪方法及装置,其中,该方法包括:对三维目标点云模型和三维场景点云模型进行特征点检测;提取三维目标点云模型和三维场景点云模型中的点云局部特征描述子;根据FLANN算法对三维目标点云模型的点云局部特征描述子和三维场景点云模型中的点云局部特征描述子进行特征匹配;通过RANSAC算法去除特征匹配结果中的错误匹配,得到三维目标点云模型的初步位姿估计;将初步位姿估计作为迭代最近点算法的初始值,通过迭代最近点算法对位姿估计进行精调。该方法提出一种简洁高效的非合作目标位姿测量方法,可以更好的实现目标航天器相对位姿的测量。
-
公开(公告)号:CN112052936B
公开(公告)日:2022-06-03
申请号:CN202010720742.7
申请日:2020-07-24
Applicant: 清华大学
Abstract: 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置,其中,该方法包括:构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。
-
公开(公告)号:CN114489043A
公开(公告)日:2022-05-13
申请号:CN202111602040.X
申请日:2021-12-24
Applicant: 清华大学
Abstract: 本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体路径规划方法、装置、电子设备及存储介质,其中,方法包括:采集多智能体中每个智能体在感知范围内的感知信息;对每个智能体在感知范围内的感知信息进行图像化处理,生成感知图像;基于复合神经网络对感知图像进行特征提取和信息聚合,将感知信息映射为目标动作策略,基于目标动作策略生成每个智能体在多个时刻的预测动作,并根据多个时刻的预测动作生成最优规划路径,控制每个智能体按照最优规划路径进行动作。由此,解决了如何在信息部分可知情况下对多智能体进行协同规划等问题。
-
公开(公告)号:CN113780574A
公开(公告)日:2021-12-10
申请号:CN202110994653.6
申请日:2021-08-27
Applicant: 清华大学
Abstract: 本申请属于智能决策技术领域,具体而言,涉及一种智能体强化学习决策方法、装置、电子设备及其存储介质。本方法首先根据被决策问题的多个约束条件建立约束方程,设计数个可显式求解的简单示例并求解并添加合适的奖励函数,得到一系列稀疏奖励的专家知识数据;将专家知识数据放置于DQN的回放缓冲模块中,获得既有专家知识数据又有环境学习数据的改进的回放缓冲模块Ex‑Replay buffer;智能体和环境交互后,将动作的概率分布输入至动作过滤模块获得合法动作,通过置信度函数确定是否选择过滤后的动作;损失函数中添加自适应项,调整使用动作过滤模块的频率。本方法数据集采集的过程更加高效、便捷,置信度函数可以为智能体选出对应任务的最佳策略。
-
公开(公告)号:CN113778080A
公开(公告)日:2021-12-10
申请号:CN202110909026.8
申请日:2021-08-09
Applicant: 清华大学
IPC: G05D1/02
Abstract: 本申请属于机器人控制技术领域,具体而言,涉及一种单轨双轮机器人的控制方法、装置、电子设备及存储介质。包括:构建一个用于控制器的控制器神经网络和一个用于训练的评论家网络;采集单轨双轮机器人真实数据信息;所述评论家网络利用所述单轨双轮机器人真实数据信息指导所述控制器神经网络在仿真环境中进行训练,得到训练后的控制器神经网络;将训练后的控制器神经网络写入单轨双轮机器人的视觉导航系统和底层控制系统中,实现对单轨双轮机器人的控制。本申请考使用强化学习的控制方法既可以完成复杂任务的控制,又无需对机器人进行动力学建模。
-
公开(公告)号:CN111488988B
公开(公告)日:2021-10-29
申请号:CN202010302194.6
申请日:2020-04-16
Applicant: 清华大学
Abstract: 本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
-
公开(公告)号:CN112101556B
公开(公告)日:2021-08-10
申请号:CN202010863637.9
申请日:2020-08-25
Applicant: 清华大学
Abstract: 本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
-
-
-
-
-
-
-
-
-