一种基于强化学习的数据中心机房的控制方法及装置

    公开(公告)号:CN118625661A

    公开(公告)日:2024-09-10

    申请号:CN202410656749.5

    申请日:2024-05-24

    Abstract: 本说明书涉及数据中心技术领域,提供了一种基于强化学习的数据中心机房的控制方法及装置。所述方法包括:根据数据中心模拟机房中的每一空调单元的状态,及空调单元的临近设备的状态,为每一空调单元建立状态转换模型;将数据中心模拟机房中所有空调单元的状态转移模型,组合构建代理模型;根据代理模型的状态数据及强化学习算法,训练得到一个基础策略;将基础策略部署至各空调单元,分别使用与各空调单元相关的数据对部署至空调单元的基础策略微调,记录每一空调单元的微调策略。本说明书基于代理模型进行高样本效率的强化学习训练,得到单ACU控制的基础策略;引入平衡回放技术对基础策略进行微调,提高强化学习样本效率、控制精度及性能。

    一种基于数字镜像的数据中心运行调试方法及装置

    公开(公告)号:CN117313548A

    公开(公告)日:2023-12-29

    申请号:CN202311458840.8

    申请日:2023-11-03

    Applicant: 清华大学

    Abstract: 本说明书涉及数据中心技术领域,提供了一种基于数字镜像的数据中心运行调试方法及装置。该方法包括:获取目标数据中心的物理场景信息;根据所述物理场景信息确定目标数据中心的元模型;利用元模型的运行状况数据训练所述元模型;根据训练后的元模型和所述物理场景信息建立数据中心镜像模型;根据所述数据中心镜像模型对目标数据中心进行运行调试。通过本说明书实施例,可实现模型精度、模型速度、训练数据成本间的有效平衡。

    一种基于多目标强化学习的策略生成方法及装置

    公开(公告)号:CN119398190A

    公开(公告)日:2025-02-07

    申请号:CN202411191254.6

    申请日:2024-08-28

    Applicant: 清华大学

    Inventor: 牟倪 栾垚 贾庆山

    Abstract: 本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

    一种数据中心末端空调系统运行策略确定方法及装置

    公开(公告)号:CN116880164A

    公开(公告)日:2023-10-13

    申请号:CN202311149176.9

    申请日:2023-09-07

    Applicant: 清华大学

    Inventor: 牟倪 贾庆山 胡潇

    Abstract: 本文涉及人工智能领域,提供了一种数据中心末端空调系统运行策略确定方法及装置,方法包括:根据数据中心机房温度场的仿真模型,建立马尔可夫决策过程模型,马尔可夫决策过程模型中状态从空调系统的观测变量中选取,动作从空调系统的控制变量中选取,利用仿真模型提供状态转移函数;建立拟合状态转移过程的神经网络替代模型,神经网络替代模型的输入为t时刻的状态与动作,输出为t+1时刻的状态;将神经网络替代模型作为学习环境,在马尔可夫决策过程模型的基础上,应用强化学习算法,在学习环境中训练得到数据中心末端空调系统运行策略。本文能够提高强化学习的训练效率。

    基于时空特征的数据中心建模与运行策略确定方法及装置

    公开(公告)号:CN119129389A

    公开(公告)日:2024-12-13

    申请号:CN202411151561.1

    申请日:2024-08-21

    Applicant: 清华大学

    Abstract: 本说明书涉及人工智能技术领域,提供了基于时空特征的数据中心建模与运行策略确定方法及装置。该方法包括:获取数据中心的历史热环境数据;利用历史热环境数据训练预设的级联神经网络模型,得到热环境仿真模型;基于热环境仿真模型,构建数据中心的运行优化目标及对应的约束条件;根据运行优化目标及对应的约束条件确定马尔可夫决策过程中的状态变量、动作变量及奖励函数,以建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在热环境仿真模型对应的学习环境下,应用深度强化学习算法训练得到数据中心的运行策略。通过本说明书实施例,可实现对数据中心动态热环境快速、准确的刻画,以及构建有效的数据中心制冷策略。

    一种数据中心末端空调系统运行策略确定方法及装置

    公开(公告)号:CN116880164B

    公开(公告)日:2023-11-14

    申请号:CN202311149176.9

    申请日:2023-09-07

    Applicant: 清华大学

    Inventor: 牟倪 贾庆山 胡潇

    Abstract: 本文涉及人工智能领域,提供了一种数据中心末端空调系统运行策略确定方法及装置,方法包括:根据数据中心机房温度场的仿真模型,建立马尔可夫决策过程模型,马尔可夫决策过程模型中状态从空调系统的观测变量中选取,动作从空调系统的控制变量中选取,利用仿真模型提供状态转移函数;建立拟合状态转移过程的神经网络替代模型,神经网络替代模型的输入为t时刻的状态与动作,输出为t+1时刻的状态;将神经网络替代模型作为学习环境,在马尔可夫决策过程模型的基础上,应用强化学习算法,在学习环境中训练得到数据中心末端空调系统运行策略。本文能够提高强化学习的训练效率。

Patent Agency Ranking