Patent search ap:("北京全路通信信号研究设计院集团有限公司" OR "清华大学") AND inv:"贾庆山" Page 1

1.

发明授权
堆场内集装箱堆放位置排布模型建立、排布方法及装置有权

公开(公告)号：CN117151310B

公开(公告)日：2024-02-13

申请号：CN202311415683.2

申请日：2023-10-30

Applicant: 清华大学 , 北京全路通信信号研究设计院集团有限公司

Inventor： 栾垚 , 贾庆山 , 王腾飞 , 李智宇

IPC: G06Q10/04 , G06Q10/0639 , G06Q10/083

Abstract: 本说明书涉及集装箱作业优化技术领域，提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括：将堆场按照运输列车的车厢位置划分为若干分片，每个分片负责堆放运输车厢在此车厢位置的全部集装箱；为每个分片构建相应的RMAB模型，并将每个分片中的每个栈作为相应RMAB模型的一个臂；基于RMAB模型设置每个分片中的每个栈的状态；将每个分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络获得Whittle指标估计模型，用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例，可以解决现有技术中求解效率低以及缺少最优性保证的问题。

2.

发明公开
堆场内集装箱堆放位置排布模型建立、排布方法及装置有权

公开(公告)号：CN117151310A

公开(公告)日：2023-12-01

申请号：CN202311415683.2

申请日：2023-10-30

Applicant: 清华大学 , 北京全路通信信号研究设计院集团有限公司

Inventor： 栾垚 , 贾庆山 , 王腾飞 , 李智宇

IPC: G06Q10/04 , G06Q10/0639 , G06Q10/083

Abstract: 本说明书涉及集装箱作业优化技术领域，提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括：将堆场按照运输列车的车厢位置划分为若干分片，每个分片负责堆放运输车厢在此车厢位置的全部集装箱；为每个分片构建相应的RMAB模型，并将每个分片中的每个栈作为相应RMAB模型的一个臂；基于RMAB模型设置每个分片中的每个栈的状态；将每个分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络获得Whittle指标估计模型，用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例，可以解决现有技术中求解效率低以及缺少最优性保证的问题。

3.

发明公开
一种联运堆场调度系统、方法、设备及存储介质审中-实审

公开(公告)号：CN117993791A

公开(公告)日：2024-05-07

申请号：CN202410010905.0

申请日：2024-01-04

Applicant: 北京全路通信信号研究设计院集团有限公司 , 清华大学

Inventor： 李智宇 , 王腾飞 , 贾庆山 , 栾垚 , 刘志明 , 燕翔 , 冯芬玲 , 黄合来 , 方晓君 , 张超凡 , 陈健 , 陈大和 , 梁必翔 , 林春奇 , 唐明辉 , 肖新辉 , 张志斌 , 黄程辉 , 左林华 , 季忠洪 , 刘昌录 , 凌昌国 , 解英娜 , 曾挚

IPC: G06Q10/067 , G06Q10/0631 , G06Q10/083 , G06Q10/0637

Abstract: 本发明公开了一种联运堆场调度系统、方法、设备及存储介质，所述系统包括：列车匹配模块、集装箱位置排布模块、场桥调度模块和算法评估模块。本发明公开的联运堆场调度系统，使用模块化设计思想，充分解耦各子模块的功能，使仿真系统中子模块灵活组合，并在算法评估模块中对通过简化操作流程，节约了计算资源，同时通过操作流程进行评估保证了调度方案的合理性。

4.

发明授权
一种堆场内多场桥任务调度方法、装置、设备及存储介质有权

公开(公告)号：CN117114379B

公开(公告)日：2024-01-30

申请号：CN202311389749.5

申请日：2023-10-25

Applicant: 清华大学 , 北京全路通信信号研究设计院集团有限公司

Inventor： 栾垚 , 贾庆山 , 王腾飞 , 李智宇

IPC: G06Q10/0631 , G06N3/0464 , G06N3/048 , G06Q10/083 , G06Q30/0283 , G06F18/214 , G06F18/2415

Abstract: 本说明书涉及场桥调度方法领域，提供了一种堆场内多场桥任务调度方法、装置、设备及存储介质。该方法包括：在每个决策时段开始时，获取此决策时段的所有可调度搬运任务的特征以及上一决策时段未执行完成的第一任务序列；基于所述特征，为此决策时段的所有可调度搬运任务分配场桥；通过调用旅行商问题求解算法对所述每个场桥中的任务进行排序，得到所述每个场桥的第二任务序列；将所述每个场桥的第二任务序列对应拼接到其第一任务序列的末尾，得到所述每个场桥在所述决策时段的总任务序列。本说明书实施例提供的场桥任务分配方法可以消除场桥间不能相互穿越的约束，使优化问题可以解耦到每个场桥，提高了求解效率。

5.

发明公开
一种堆场内多场桥任务调度方法、装置、设备及存储介质有权

公开(公告)号：CN117114379A

公开(公告)日：2023-11-24

申请号：CN202311389749.5

申请日：2023-10-25

Applicant: 清华大学 , 北京全路通信信号研究设计院集团有限公司

Inventor： 栾垚 , 贾庆山 , 王腾飞 , 李智宇

IPC: G06Q10/0631 , G06N3/0464 , G06N3/048 , G06Q10/083 , G06Q30/0283 , G06F18/214 , G06F18/2415

Abstract: 本说明书涉及场桥调度方法领域，提供了一种堆场内多场桥任务调度方法、装置、设备及存储介质。该方法包括：在每个决策时段开始时，获取此决策时段的所有可调度搬运任务的特征以及上一决策时段未执行完成的第一任务序列；基于所述特征，为此决策时段的所有可调度搬运任务分配场桥；通过调用旅行商问题求解算法对所述每个场桥中的任务进行排序，得到所述每个场桥的第二任务序列；将所述每个场桥的第二任务序列对应拼接到其第一任务序列的末尾，得到所述每个场桥在所述决策时段的总任务序列。本说明书实施例提供的场桥任务分配方法可以消除场桥间不能相互穿越的约束，使优化问题可以解耦到每个场桥，提高了求解效率。

6.

发明公开
一种基于多目标强化学习的策略生成方法及装置审中-实审

公开(公告)号：CN119398190A

公开(公告)日：2025-02-07

申请号：CN202411191254.6

申请日：2024-08-28

Applicant: 清华大学

Inventor： 牟倪 , 栾垚 , 贾庆山

IPC: G06N20/00 , G06N7/01

Abstract: 本说明书涉及强化学习技术领域，提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括：接收多目标策略优化请求；根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器，构建多目标反馈指标数据；建立显式的多目标奖励模型；利用多目标反馈指标数据训练多目标奖励模型；根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型，建立马尔可夫决策过程模型；根据马尔可夫决策过程模型，在多目标策略优化请求对应的学习环境下，利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例，可提高基于多目标强化学习的策略生成精度。

7.

发明公开
一种被控系统群的运行策略协同优化方法及装置审中-实审

公开(公告)号：CN118674109A

公开(公告)日：2024-09-20

申请号：CN202410798959.8

申请日：2024-06-20

Applicant: 清华大学 , 南方电网科学研究院有限责任公司

Inventor： 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮

IPC: G06Q10/04 , G06Q10/0631 , G06Q10/067 , G06Q50/06 , G06F17/18 , G06N20/00

Abstract: 本发明涉及运行策略优化领域，提供了一种被控系统群的运行策略协同优化方法及装置，方法包括：根据仿真结果确定各动作的Q因子样本方差、各最优动作与非最优动作的Q因子融合值的性能差别以及已消耗样本总量；利用采样数据分配算法对上述量进行分析得到各动作目标样本量；根据各动作目标样本量与各动作已消耗样本量确定各动作补充采样量；根据补充采样量进行补充采样，利用补充仿真结果重新确定各动作的Q因子样本方差、性能差别以及已消耗样本总量；调整已消耗样本总量，判断已消耗样本总量是否小于预设总采样量，若是重新计算目标样本量及之后步骤，若否输出最优动作。本发明协同使用动作一致性的被控系统的运行数据，能够提升优化效率及性能。

8.

发明公开
一种面向单约束待控系统的在线约束强化学习方法及装置审中-实审

公开(公告)号：CN118674067A

公开(公告)日：2024-09-20

申请号：CN202410804230.7

申请日：2024-06-20

Applicant: 清华大学 , 南方电网科学研究院有限责任公司

Inventor： 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮

IPC: G06N20/00 , G06F17/18 , G06Q10/067 , G06Q10/0631 , G06Q50/06

Abstract: 本发明提供了一种面向单约束待控系统的在线约束强化学习方法及装置，包括：按照预设采样量对各动作的仿真结果进行采样，根据采样的仿真结果确定观测的最优动作、可行动作及不可行动作；计算各可行动作及最优动作的Q因子和样本方差、各不可行动作的约束函数QH因子及样本方差；利用采样数据分配算法得到各动作目标样本量；根据各动作目标样本量确定各动作补充采样量；利用补充采样的仿真结果重新确定可行动作及最优动作的Q因子和样本方差、各不可行动作的约束函数QH因子及样本方差；调整已消耗采样总量，判断已消耗样本总量是否满足动作采样量约束条件，若是，输出最优动作至待控系统，本发明能够提升优化策略性能。

9.

发明授权
解决MAB问题的经典量子混合强化学习模拟方法及装置有权

公开(公告)号：CN116263880B

公开(公告)日：2024-08-13

申请号：CN202111532865.9

申请日：2021-12-15

Applicant: 清华大学

Inventor： 贾庆山 , 刘一沛 , 王旭

IPC: G06N10/00 , G06N20/00

Abstract: 本发明提供了一种解决MAB问题的经典量子混合强化学习模拟方法及装置，方法包括：设计关于多摇臂MAB求解问题的量子结合经典的强化学习学习范式；确定MAB求解问题的摇臂数量m并引入量子辅助比特数量n；根据摇臂的数量和辅助比特的数量对量子态进行普通初始态制备和引入迭代次数信息的特定的初始态制备，其中在初始化时对于每一个摇臂的量子态概率是均等的；对完成初始化的量子态进行测量获得摇臂结果，并利用摇臂结果实现对应量子态幅值的增大；根据摇臂结果选择对应摇臂对应量子态区间的前进指针信息进行加一更新并再次对量子态进行迭代测量确定最优摇臂。

10.

发明公开
权衡个性化热舒适与HVAC能耗的强化学习方法及装置审中-实审

公开(公告)号：CN117606133A

公开(公告)日：2024-02-27

申请号：CN202311568306.2

申请日：2023-11-22

Applicant: 清华大学

Inventor： 周翰辰 , 贾庆山

IPC: F24F11/89 , G05B13/04 , F24F7/007 , F24F11/47 , F24F1/0018 , F24F1/0035 , F24F11/64 , F24F11/74 , F24F11/80

Abstract: 本说明书实施例涉及智能建筑节能优化领域，尤其涉及一种权衡个性化热舒适与HVAC能耗的强化学习方法及装置。该方法的实现步骤如下：(1)构建基于机理的HVAC系统能耗模型；(2)构建基于热平衡法的房间传热机理模型；(3)构建基于PMV指标的用户个性化舒适度模型；(4)构建个性化舒适度与能耗权衡优化问题及基于Q学习的强化学习求解算法框架。通过本说明书实施例，能够充分满足不同冷热偏好、不同消费习惯的用户的热舒适需求，避免不必要的能源浪费，通过预冷机制充分利用低电价优势实现节能，通过用户实时反馈及时调整运行策略，鲁棒性强。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification