堆场内集装箱堆放位置排布模型建立、排布方法及装置

    公开(公告)号:CN117151310B

    公开(公告)日:2024-02-13

    申请号:CN202311415683.2

    申请日:2023-10-30

    Abstract: 本说明书涉及集装箱作业优化技术领域,提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括:将堆场按照运输列车的车厢位置划分为若干分片,每个分片负责堆放运输车厢在此车厢位置的全部集装箱;为每个分片构建相应的RMAB模型,并将每个分片中的每个栈作为相应RMAB模型的一个臂;基于RMAB模型设置每个分片中的每个栈的状态;将每个分片中的每个栈的状态作为神经网络的输入,利用强化学习方法训练神经网络获得Whittle指标估计模型,用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例,可以解决现有技术中求解效率低以及缺少最优性保证的问题。

    堆场内集装箱堆放位置排布模型建立、排布方法及装置

    公开(公告)号:CN117151310A

    公开(公告)日:2023-12-01

    申请号:CN202311415683.2

    申请日:2023-10-30

    Abstract: 本说明书涉及集装箱作业优化技术领域,提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括:将堆场按照运输列车的车厢位置划分为若干分片,每个分片负责堆放运输车厢在此车厢位置的全部集装箱;为每个分片构建相应的RMAB模型,并将每个分片中的每个栈作为相应RMAB模型的一个臂;基于RMAB模型设置每个分片中的每个栈的状态;将每个分片中的每个栈的状态作为神经网络的输入,利用强化学习方法训练神经网络获得Whittle指标估计模型,用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例,可以解决现有技术中求解效率低以及缺少最优性保证的问题。

    一种基于多目标强化学习的策略生成方法及装置

    公开(公告)号:CN119398190A

    公开(公告)日:2025-02-07

    申请号:CN202411191254.6

    申请日:2024-08-28

    Applicant: 清华大学

    Inventor: 牟倪 栾垚 贾庆山

    Abstract: 本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

    一种被控系统群的运行策略协同优化方法及装置

    公开(公告)号:CN118674109A

    公开(公告)日:2024-09-20

    申请号:CN202410798959.8

    申请日:2024-06-20

    Abstract: 本发明涉及运行策略优化领域,提供了一种被控系统群的运行策略协同优化方法及装置,方法包括:根据仿真结果确定各动作的Q因子样本方差、各最优动作与非最优动作的Q因子融合值的性能差别以及已消耗样本总量;利用采样数据分配算法对上述量进行分析得到各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量确定各动作补充采样量;根据补充采样量进行补充采样,利用补充仿真结果重新确定各动作的Q因子样本方差、性能差别以及已消耗样本总量;调整已消耗样本总量,判断已消耗样本总量是否小于预设总采样量,若是重新计算目标样本量及之后步骤,若否输出最优动作。本发明协同使用动作一致性的被控系统的运行数据,能够提升优化效率及性能。

    解决MAB问题的经典量子混合强化学习模拟方法及装置

    公开(公告)号:CN116263880B

    公开(公告)日:2024-08-13

    申请号:CN202111532865.9

    申请日:2021-12-15

    Applicant: 清华大学

    Abstract: 本发明提供了一种解决MAB问题的经典量子混合强化学习模拟方法及装置,方法包括:设计关于多摇臂MAB求解问题的量子结合经典的强化学习学习范式;确定MAB求解问题的摇臂数量m并引入量子辅助比特数量n;根据摇臂的数量和辅助比特的数量对量子态进行普通初始态制备和引入迭代次数信息的特定的初始态制备,其中在初始化时对于每一个摇臂的量子态概率是均等的;对完成初始化的量子态进行测量获得摇臂结果,并利用摇臂结果实现对应量子态幅值的增大;根据摇臂结果选择对应摇臂对应量子态区间的前进指针信息进行加一更新并再次对量子态进行迭代测量确定最优摇臂。

    权衡个性化热舒适与HVAC能耗的强化学习方法及装置

    公开(公告)号:CN117606133A

    公开(公告)日:2024-02-27

    申请号:CN202311568306.2

    申请日:2023-11-22

    Applicant: 清华大学

    Inventor: 周翰辰 贾庆山

    Abstract: 本说明书实施例涉及智能建筑节能优化领域,尤其涉及一种权衡个性化热舒适与HVAC能耗的强化学习方法及装置。该方法的实现步骤如下:(1)构建基于机理的HVAC系统能耗模型;(2)构建基于热平衡法的房间传热机理模型;(3)构建基于PMV指标的用户个性化舒适度模型;(4)构建个性化舒适度与能耗权衡优化问题及基于Q学习的强化学习求解算法框架。通过本说明书实施例,能够充分满足不同冷热偏好、不同消费习惯的用户的热舒适需求,避免不必要的能源浪费,通过预冷机制充分利用低电价优势实现节能,通过用户实时反馈及时调整运行策略,鲁棒性强。

Patent Agency Ranking