堆场内集装箱堆放位置排布模型建立、排布方法及装置

    公开(公告)号:CN117151310B

    公开(公告)日:2024-02-13

    申请号:CN202311415683.2

    申请日:2023-10-30

    Abstract: 本说明书涉及集装箱作业优化技术领域,提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括:将堆场按照运输列车的车厢位置划分为若干分片,每个分片负责堆放运输车厢在此车厢位置的全部集装箱;为每个分片构建相应的RMAB模型,并将每个分片中的每个栈作为相应RMAB模型的一个臂;基于RMAB模型设置每个分片中的每个栈的状态;将每个分片中的每个栈的状态作为神经网络的输入,利用强化学习方法训练神经网络获得Whittle指标估计模型,用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例,可以解决现有技术中求解效率低以及缺少最优性保证的问题。

    堆场内集装箱堆放位置排布模型建立、排布方法及装置

    公开(公告)号:CN117151310A

    公开(公告)日:2023-12-01

    申请号:CN202311415683.2

    申请日:2023-10-30

    Abstract: 本说明书涉及集装箱作业优化技术领域,提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括:将堆场按照运输列车的车厢位置划分为若干分片,每个分片负责堆放运输车厢在此车厢位置的全部集装箱;为每个分片构建相应的RMAB模型,并将每个分片中的每个栈作为相应RMAB模型的一个臂;基于RMAB模型设置每个分片中的每个栈的状态;将每个分片中的每个栈的状态作为神经网络的输入,利用强化学习方法训练神经网络获得Whittle指标估计模型,用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例,可以解决现有技术中求解效率低以及缺少最优性保证的问题。

    一种基于多目标强化学习的策略生成方法及装置

    公开(公告)号:CN119398190A

    公开(公告)日:2025-02-07

    申请号:CN202411191254.6

    申请日:2024-08-28

    Applicant: 清华大学

    Inventor: 牟倪 栾垚 贾庆山

    Abstract: 本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

Patent Agency Ranking