Patent search ap:("清华大学" OR "财拓云计算(上海)有限公司") AND inv:"张策" Page 1

1.

发明公开
冷源温控和能量优化的智能体离线层次化强化学习方法审中-实审

公开(公告)号：CN118642354A

公开(公告)日：2024-09-13

申请号：CN202410216374.0

申请日：2024-02-27

Applicant: 清华大学 , 财拓云计算(上海)有限公司

Inventor： 詹仙园 , 罗宇 , 朱翔宇 , 张文嘉 , 嵇天颖 , 张策 , 郑惠文 , 刘晨辉 , 李慧 , 宋树昆 , 杨韬

IPC: G05B13/04

Abstract: 本发明提供一种冷源温控和能量优化的智能体离线层次化强化学习方法，包括：采集冷源系统以及冷源单元的历史运行数据，进行数据处理生成运行历史数据集；基于冷源系统，通过自动负载工作库目标从无动作的离线强化学习方法学习到状态动作价值函数，基于价值函数提取高层策略进行冷源系统的控制；基于冷源单元，通过概率动力学模型进行学习，引入判别器，将学习过程耦合纳入所述判别器的输入建立合作信息共享，确定低层策略的损失函数，建立低层策略进行冷源单元的控制；将冷源系统的高层策略与冷源单元的低层策略部署至冷却系统，对冷却系统进行在线优化控制。本发明解决了现有冷却系统优化控制数据效率低、分布偏移，高维状态空间难处理的问题。

2.

发明公开
基于模型离线规划的数据中心末端冷却系统优化控制方法审中-实审

公开(公告)号：CN118068712A

公开(公告)日：2024-05-24

申请号：CN202410216525.2

申请日：2024-02-27

Applicant: 清华大学 , 财拓云计算(上海)有限公司

Inventor： 朱翔宇 , 詹仙园 , 成鹏 , 罗宇 , 张策 , 郑惠文 , 刘晨辉 , 李慧 , 宋树昆 , 杨韬

IPC: G05B13/04

Abstract: 本发明提供一种基于模型离线规划的数据中心末端冷却系统优化控制方法，包括：获取末端冷却系统历史运行数据并进行数据处理，形成历史数据集；基于预设的图神经网络及时间反演对称性约束构建动力学模型；通过所述历史数据集对所述动力学模型进行训练，基于训练完成的动力学模型通过模型预测控制方法构建基于模型离线规划的优化模型；将所述优化模型部署至冷却系统控制环境中，进行冷却控制优化，形成控制方案。本发明解决了现有末端冷却系统难以与实际应用需求相匹配、冷却效率低的问题。

3.

发明公开
异常电池检测方法、模型训练方法和相关装置审中-实审

公开(公告)号：CN117930065A

公开(公告)日：2024-04-26

申请号：CN202311863709.X

申请日：2023-12-29

Applicant: 财拓云计算(上海)有限公司 , 清华大学

Inventor： 刘善斌 , 奚晨浩 , 董川 , 张勇 , 李元春 , 刘云新 , 张策

IPC: G01R31/396 , G01R31/367 , G01R31/385 , G01R31/389 , G06F18/2433 , G06F18/2415 , G06F18/214 , G06N20/20 , G06N5/01 , G06F123/02

Abstract: 本公开涉及异常电池检测方法、模型训练方法和相关装置。一种用于检测电池组中的异常电池单体的方法包括：获取经训练的机器学习模型，其被配置为用电池组中其余电池单体的特征时间序列预测电池组中一个电池单体的特征时间序列；获取从待测电池组中的每个电池单体的特征时序数据提取的特征时间序列；将待测电池组中其余电池单体的特征时间序列输入经训练的机器学习模型以得到第一电池单体在各个时刻的特征值概率分布；基于第一电池单体的特征时间序列，从第一电池单体的特征值概率分布中确定第一电池单体的概率时间序列，其包括第一电池单体在各个时刻的概率值；基于第一电池单体的概率时间序列确定第一电池单体的异常情况。

4.

发明公开
基于时间反演对称性的离线强化学习方法及装置审中-实审

公开(公告)号：CN119337960A

公开(公告)日：2025-01-21

申请号：CN202411363121.2

申请日：2024-09-27

Applicant: 清华大学 , 清华大学无锡应用技术研究院

Inventor： 詹仙园 , 成鹏 , 张策

IPC: G06N3/092 , G06N3/0464 , G06N3/044 , G06N3/0499

Abstract: 本发明提供一种基于时间反演对称性的离线强化学习方法及装置，其中的方法包括：获取当前时刻状态，并将当前时刻状态编码为当前时刻状态的低维表示；基于预先训练的策略网络，根据当前时刻状态的低维表示，预测下一时刻状态的低维表示；基于预先训练的逆动力学模型，根据当前时刻状态的低维表示和下一时刻状态的低维表示，预测当前时刻状态对应动作的低维表示；根据当前时刻状态对应动作的低维表示，获取当前时刻状态对应的目标动作；其中，策略网络和逆动力学模型基于时间反演对称性约束进行训练优化得到，时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。该方法通过在隐空间中提取数据的时间反演对称性这一性特性，并基于时间反演对称性约束训练优化策略网络和逆动力学模型，使得最终隐空间中低维表示的预测更加可靠和稳定，有效提升了强化学习算法在小样本场景下的性能表现，并提升了样本利用率。

5.

发明公开
多传感器协同感知方法、装置、计算机设备和存储介质审中-实审

公开(公告)号：CN115859120A

公开(公告)日：2023-03-28

申请号：CN202211714641.4

申请日：2022-12-29

Applicant: 广东美的制冷设备有限公司 , 清华大学

Inventor： 董楚楚 , 林洁芳 , 陈挺 , 李元春 , 刘云新 , 张策

IPC: G06F18/214 , G06N20/00

Abstract: 本发明公开了多传感器协同感知方法、多传感器协同感知装置、计算机设备和计算机可读存储介质。多传感器协同感知方法包括：获取样本数据集，样本数据集包括多个样本，每个样本包括多个传感器的传感器数据；基于样本数据集对深度学习模型进行训练，以使得深度学习模型能够根据多个传感器的传感器数据确定感知目标结果，感知目标结果包括目标对象的工作、手势和位置中的至少一种。本发明的技术方案，基于样本数据集对深度学习模型进行训练，以使得深度学习模型能够根据多个传感器的传感器数据确定感知目标结果，从而实现利用多源异构的传感器进行协同感知。

6.

发明公开
大语言模型自我评价方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119337944A

公开(公告)日：2025-01-21

申请号：CN202411362689.2

申请日：2024-09-27

Applicant: 清华大学 , 亚信科技(中国)有限公司

Inventor： 詹仙园 , 胡潇 , 张策

IPC: G06N3/0475 , G06N3/094 , G06N3/047 , G06F11/34

Abstract: 本发明提供一种大语言模型自我评价方法、装置、电子设备及存储介质，其中的方法包括：获取目标输入，目标输入包括待解答问题及其对应的回答结果；基于预先训练的大语言模型，根据目标输入，预测得到自我评价结果；其中，大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到，正样本和负样本均包括问题、答案和质量标签。该方法通过基于判别器和生成器根据正样本和负样本对大语言模型进行有监督训练，能够有效提升大语言模型的自我评价准确度，进而充分利用已有数据实现大语言模型的自我进化，提升大语言模型的推理能力和泛化能力。

7.

发明公开
用于预测电池的健康状态的方法和相关装置审中-实审

公开(公告)号：CN116736167A

公开(公告)日：2023-09-12

申请号：CN202310699711.1

申请日：2023-06-13

Applicant: 数据天地创新科技有限公司 , 清华大学

Inventor： 张勇 , 李元春 , 李慧 , 刘云新 , 张策

IPC: G01R31/392 , G01R31/396 , G01R31/367 , G01R31/36 , G06F18/22 , G06F18/214

Abstract: 本公开涉及用于预测电池的健康状态的方法和相关装置。方法包括：获取包括参考电池在全寿命周期的电压随时间变化曲线的源域数据和包括目标电池在寿命早期的电压随时间变化曲线的目标域数据；识别特征电压变化区间；构造源域样本，其样本输入包括每个参考电池在每个特征电压变化区间之前的第一多次特征电压变化区间的特征值和健康状态，其样本输出包括该参考电池在该特征电压变化区间之后的第二多次特征电压变化区间的健康状态；基于源域样本构造度量样本输入相似性的度量函数；以类似构造源域样本的方式构造目标域样本；用目标域样本的样本输入与源域样本的样本输入之间的相似性对源域样本的样本输出加权以合成目标电池的健康状态预测值。

8.

发明公开
基于动力学对称性建模的离线强化学习方法及装置审中-实审

公开(公告)号：CN115983400A

公开(公告)日：2023-04-18

申请号：CN202211574784.X

申请日：2022-12-08

Applicant: 清华大学 , 数据天地创新科技有限公司

Inventor： 詹仙园 , 成鹏 , 刘刚 , 林刚 , 李慧 , 席加 , 张策

IPC: G06N20/00

Abstract: 本发明提供一种基于动力学对称性建模的离线强化学习方法及装置，其中的方法包括：获取离线数据集；通过编码器和双向动力学模型对离线数据集中的原始状态‑动作对进行处理，得到低维状态‑动作对和当前时间反演状态变化量；将低维状态‑动作对输入至价值网络，得到原始状态‑动作对所对应的状态‑动作价值函数值。该方法利用双向动力学模型对离线数据进行处理，从离线数据中提取出有效信息即时间反演状态变化量，这些信息具备极高的泛化性和可解释性，以该有效信息作为价值网络的输入而得到的状态‑动作价值函数值，能够有效地辅助强化学习得到一个最大化长期奖励的策略，实现行为策略的优化。

9.

发明公开
基于离线多智能体强化学习的数据中心末端冷却系统优化方法审中-实审

公开(公告)号：CN118434071A

公开(公告)日：2024-08-02

申请号：CN202410416835.9

申请日：2024-04-08

Applicant: 清华大学 , 英特尔公司

Inventor： 詹仙园 , 朱翔宇 , 张策

IPC: H05K7/20 , G06N3/045 , G06N3/092

Abstract: 本发明提供一种基于离线多智能体强化学习的数据中心末端冷却系统优化方法，包括：获取末端冷却系统历史运行数据并进行数据处理，形成历史数据集；将所述历史数据集根据多智能体的观测特征、动作和当前时刻奖励进行划分，生成末端冷却系统多智能体数据集；基于所述末端冷却系统多智能体数据集通过隐式全局到局部值正则化的离线多智能体强化学习方法对智能体进行离线训练，生成多智能体强化学习模型；将所述多智能体强化学习模型部署至末端冷却控制系统，进行冷却优化控制。本发明解决了现有冷却系统难以满足实际个性化需求、冷却效果不佳的问题。

10.

发明公开
迁移方法、迁移装置、计算机设备和计算机可读存储介质审中-实审

公开(公告)号：CN116304671A

公开(公告)日：2023-06-23

申请号：CN202211701362.4

申请日：2022-12-28

Applicant: 广东美的制冷设备有限公司 , 清华大学

Inventor： 董楚楚 , 杨钰博 , 陈挺 , 李元春 , 刘云新 , 张策 , 林洁芳

IPC: G06F18/214 , G06F18/24 , G06N3/0455 , G06N3/0442 , G06N3/096 , G06N5/04 , G06N5/046

Abstract: 本发明公开了一种迁移方法、迁移装置、计算机设备和计算机可读存储介质。迁移方法包括：识别出目标环境下当前传感器中的低质量传感器并为低质量传感器分配弱化权重，弱化权重小于预设权重；固定每个当前传感器的权重，基于待迁移数据集和源环境下的深度学习模型确定迁移后的目标深度学习模型，以将深度学习模型从源环境迁移到目标环境。本发明的技术方案，通过识别当前传感器中的低质量传感器并为低质量传感器分配较小权重，可以极大降低低质量传感器数据对目标深度学习模型的影响，加快目标环境下目标深度学习模型的训练收敛速度，确保目标深度学习模型能够达到较高的识别精度。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification