冷源温控和能量优化的智能体离线层次化强化学习方法

    公开(公告)号:CN118642354A

    公开(公告)日:2024-09-13

    申请号:CN202410216374.0

    申请日:2024-02-27

    Abstract: 本发明提供一种冷源温控和能量优化的智能体离线层次化强化学习方法,包括:采集冷源系统以及冷源单元的历史运行数据,进行数据处理生成运行历史数据集;基于冷源系统,通过自动负载工作库目标从无动作的离线强化学习方法学习到状态动作价值函数,基于价值函数提取高层策略进行冷源系统的控制;基于冷源单元,通过概率动力学模型进行学习,引入判别器,将学习过程耦合纳入所述判别器的输入建立合作信息共享,确定低层策略的损失函数,建立低层策略进行冷源单元的控制;将冷源系统的高层策略与冷源单元的低层策略部署至冷却系统,对冷却系统进行在线优化控制。本发明解决了现有冷却系统优化控制数据效率低、分布偏移,高维状态空间难处理的问题。

    基于时间反演对称性的离线强化学习方法及装置

    公开(公告)号:CN119337960A

    公开(公告)日:2025-01-21

    申请号:CN202411363121.2

    申请日:2024-09-27

    Inventor: 詹仙园 成鹏 张策

    Abstract: 本发明提供一种基于时间反演对称性的离线强化学习方法及装置,其中的方法包括:获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,策略网络和逆动力学模型基于时间反演对称性约束进行训练优化得到,时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。该方法通过在隐空间中提取数据的时间反演对称性这一性特性,并基于时间反演对称性约束训练优化策略网络和逆动力学模型,使得最终隐空间中低维表示的预测更加可靠和稳定,有效提升了强化学习算法在小样本场景下的性能表现,并提升了样本利用率。

    多传感器协同感知方法、装置、计算机设备和存储介质

    公开(公告)号:CN115859120A

    公开(公告)日:2023-03-28

    申请号:CN202211714641.4

    申请日:2022-12-29

    Abstract: 本发明公开了多传感器协同感知方法、多传感器协同感知装置、计算机设备和计算机可读存储介质。多传感器协同感知方法包括:获取样本数据集,样本数据集包括多个样本,每个样本包括多个传感器的传感器数据;基于样本数据集对深度学习模型进行训练,以使得深度学习模型能够根据多个传感器的传感器数据确定感知目标结果,感知目标结果包括目标对象的工作、手势和位置中的至少一种。本发明的技术方案,基于样本数据集对深度学习模型进行训练,以使得深度学习模型能够根据多个传感器的传感器数据确定感知目标结果,从而实现利用多源异构的传感器进行协同感知。

    大语言模型自我评价方法、装置、电子设备及存储介质

    公开(公告)号:CN119337944A

    公开(公告)日:2025-01-21

    申请号:CN202411362689.2

    申请日:2024-09-27

    Inventor: 詹仙园 胡潇 张策

    Abstract: 本发明提供一种大语言模型自我评价方法、装置、电子设备及存储介质,其中的方法包括:获取目标输入,目标输入包括待解答问题及其对应的回答结果;基于预先训练的大语言模型,根据目标输入,预测得到自我评价结果;其中,大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,正样本和负样本均包括问题、答案和质量标签。该方法通过基于判别器和生成器根据正样本和负样本对大语言模型进行有监督训练,能够有效提升大语言模型的自我评价准确度,进而充分利用已有数据实现大语言模型的自我进化,提升大语言模型的推理能力和泛化能力。

    用于预测电池的健康状态的方法和相关装置

    公开(公告)号:CN116736167A

    公开(公告)日:2023-09-12

    申请号:CN202310699711.1

    申请日:2023-06-13

    Abstract: 本公开涉及用于预测电池的健康状态的方法和相关装置。方法包括:获取包括参考电池在全寿命周期的电压随时间变化曲线的源域数据和包括目标电池在寿命早期的电压随时间变化曲线的目标域数据;识别特征电压变化区间;构造源域样本,其样本输入包括每个参考电池在每个特征电压变化区间之前的第一多次特征电压变化区间的特征值和健康状态,其样本输出包括该参考电池在该特征电压变化区间之后的第二多次特征电压变化区间的健康状态;基于源域样本构造度量样本输入相似性的度量函数;以类似构造源域样本的方式构造目标域样本;用目标域样本的样本输入与源域样本的样本输入之间的相似性对源域样本的样本输出加权以合成目标电池的健康状态预测值。

    基于动力学对称性建模的离线强化学习方法及装置

    公开(公告)号:CN115983400A

    公开(公告)日:2023-04-18

    申请号:CN202211574784.X

    申请日:2022-12-08

    Abstract: 本发明提供一种基于动力学对称性建模的离线强化学习方法及装置,其中的方法包括:获取离线数据集;通过编码器和双向动力学模型对离线数据集中的原始状态‑动作对进行处理,得到低维状态‑动作对和当前时间反演状态变化量;将低维状态‑动作对输入至价值网络,得到原始状态‑动作对所对应的状态‑动作价值函数值。该方法利用双向动力学模型对离线数据进行处理,从离线数据中提取出有效信息即时间反演状态变化量,这些信息具备极高的泛化性和可解释性,以该有效信息作为价值网络的输入而得到的状态‑动作价值函数值,能够有效地辅助强化学习得到一个最大化长期奖励的策略,实现行为策略的优化。

    基于离线多智能体强化学习的数据中心末端冷却系统优化方法

    公开(公告)号:CN118434071A

    公开(公告)日:2024-08-02

    申请号:CN202410416835.9

    申请日:2024-04-08

    Abstract: 本发明提供一种基于离线多智能体强化学习的数据中心末端冷却系统优化方法,包括:获取末端冷却系统历史运行数据并进行数据处理,形成历史数据集;将所述历史数据集根据多智能体的观测特征、动作和当前时刻奖励进行划分,生成末端冷却系统多智能体数据集;基于所述末端冷却系统多智能体数据集通过隐式全局到局部值正则化的离线多智能体强化学习方法对智能体进行离线训练,生成多智能体强化学习模型;将所述多智能体强化学习模型部署至末端冷却控制系统,进行冷却优化控制。本发明解决了现有冷却系统难以满足实际个性化需求、冷却效果不佳的问题。

Patent Agency Ranking