一种模型训练和控制无人设备的方法及装置

    公开(公告)号:CN112925210B

    公开(公告)日:2021-09-07

    申请号:CN202110508067.6

    申请日:2021-05-11

    Abstract: 本说明书公开了一种模型训练和控制无人设备的方法及装置,本说明书实施例在强化学习网络之外独立设置安全性验证的模块,当强化学习网络输出的控制策略不能通过安全性验证时,采用非强化学习算法模块出的控制策略作为待优化控制策略,并以待优化控制策略所能获得的奖励最大化为目标,对强化学习网络进行训练。这样,在对包含上述强化学习网络和非强化学习算法模块的强化学习模型在训练时,既不需要高精度的虚拟仿真系统,也极大的降低了实车试验的成本,训练后的强化学习模型也能适用于多种复杂场景。

    面向建筑内监控视频的人数标定辅助方法及系统

    公开(公告)号:CN110443153A

    公开(公告)日:2019-11-12

    申请号:CN201910636650.8

    申请日:2019-07-15

    Applicant: 清华大学

    Inventor: 贾庆山 李郅纯

    Abstract: 本发明公开了一种面向建筑内监控视频的人数标定辅助方法及系统,其中,该方法包括以下步骤:检测每个摄像头的关键区域;对每个摄像头的关键区域进行混合高斯背景建模,并提取各个原始视频中有人员经过的关键段落;将每一次进出标为一个事件,并对人数变化事件进行标定。该方法可以选择更加复杂的关键区域形状,而不局限于规则的矩形,还可用其它背景建模方法建立背景模型,还可用除感知哈希以外的方法完成运动目标检测,从而能够并行处理大量的监控摄像头数据内容,去除原始视频中的无人片段,大幅减少人工筛查成本,适应建筑内部的典型公共区域场景以及早晚的光线变动,实现更高效率的人机协同合作的人数标定方法。

    多层级迁移模拟方法和装置

    公开(公告)号:CN110309560A

    公开(公告)日:2019-10-08

    申请号:CN201910512150.3

    申请日:2019-06-13

    Applicant: 清华大学

    Abstract: 本发明提出一种多层级迁移模拟方法和装置,其中,方法包括:根据建筑的结构建立多层级的建筑拓扑,其中,多层级的建筑拓扑中的第一层包含楼层建筑拓扑,第二层包含楼层区域建筑拓扑,第三层包含楼层区域内网格化建筑拓扑;获取模拟实验的多个人员的日程安排;根据日程安排获取多个人员中每个人员的停留时间段,并根据预设模拟算法模拟每个人员在对应停留时间段内,在建筑拓扑中的状态转移位置;根据状态转移位置计算建筑的运行能耗参数。由此,体现了分层级、多尺度的思想,节省了计算机的存储空间和计算资源,体现人员在不同空间尺度上的迁移特点,可以较为真实地模拟建筑内的人员分布情况,估算建筑运行。

    根据建筑物内区域人数分布对能源设备进行控制的方法

    公开(公告)号:CN102621886B

    公开(公告)日:2013-11-06

    申请号:CN201210033864.4

    申请日:2012-02-15

    Abstract: 本发明涉及一种根据建筑物内区域人数分布对能源设备进行控制的方法,属于建筑节能和消防疏散技术领域。本发明方法中使用人员进出检测装置、人体探测装置和区域控制器。本发明方法一方面利用区域内人体探测装置探测到区域无人时,对区域人数置零,另一方面通过对建筑物区域划分,根据区域功能特点对人员在该区域停留时间进行估计,根据进出检测装置检测人员进出区域时间,与该区域人员停留时间特点进行比较,实现对区域内人数偏差的修正。本方法得到的建筑物内区域人数分布,直接通过控制器对区域内的用电设备和消防疏散设备等进行控制,提高了建筑节能的效果、突发事件发生时的疏散效率,保证建筑物内人员安全。

    一种多智能电网供需匹配问题求解方法、装置及设备

    公开(公告)号:CN119886201A

    公开(公告)日:2025-04-25

    申请号:CN202411958197.X

    申请日:2024-12-27

    Applicant: 清华大学

    Inventor: 贾庆山 江锐城

    Abstract: 本说明书实施例涉及电力系统自动化技术领域,提供了一种多智能电网供需匹配问题求解方法、装置及设备,包括:将每一智能电网作为一智能体,构建多个智能体的共享行动价值表,共享行动价值表包括每一状态动作对的行动价值均值、行动价值方差及采样次数;根据预先设定的采样策略对每一智能体在不同状态动作对的行动价值进行采样,得到每一智能体在每一状态动作对的行动价值采样值,并更新共享行动价值表;根据更新后行动价值表确定最优策略,将所述最优策略作为每一智能电网供需匹配问题的最优解。通过本说明书实施例,能够在有限计算资源下通过智能体之间的信息共享选择出最优动作,提高多智能体学习最优策略的效率。

    一种被控系统运行调度的监督强化学习方法及装置

    公开(公告)号:CN118674068A

    公开(公告)日:2024-09-20

    申请号:CN202410804234.5

    申请日:2024-06-20

    Abstract: 本发明涉及强化学习领域,提供了一种被控系统运行调度的监督强化学习方法及装置,包括:确定各状态‑动作对的Q因子、Q因子样本方差以及已消耗样本总量;计算各状态下各非观测最优动作的重要性,将重要性排名前△M个非观测最优动作发送至监督者;调整已消耗采样总量,利用采样数据分配算法对各状态‑动作对的Q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量;确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样结果重新确定之前的步骤;判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够将监督者的监督与采样数据融合起来,提升学习效率及性能。

Patent Agency Ranking