Patent search ap:("暨南大学") AND inv:"廖梓钧" Page 1

1.

发明授权
一种基于强化学习的个性化短视频推荐方法以及系统有权

公开(公告)号：CN113282787B

公开(公告)日：2022-01-04

申请号：CN202110567524.9

申请日：2021-05-24

Applicant: 暨南大学

Inventor： 郭洪飞 , 廖梓钧 , 陈世帆 , 曾云辉 , 何智慧 , 吴千华 , 蔡泽炬 , 张恒基

IPC: G06F16/735 , G06K9/62 , G06N20/00

Abstract: 本发明提出一种基于强化学习的个性化短视频推荐方法以及系统，个性化短视频推荐方法包括：收集单个用户的历史记录，得到真实数据分布和专家轨迹；将真实数据分布输入GAN‑SD算法，对用户的特征进行建模，得到用户特征分布；将用户特征分布和专家轨迹输入到MAIL算法，对用户的交互行为建模，得到用户的决策函数；得到用户特征分布和决策函数后，完成对用户的建模；建模推荐引擎和用户的马尔科夫决策过程，用TRPO+ANC算法训练推荐引擎的马尔科夫决策过程，根据得到的累积回报值确定不同动作下的短视频推荐策略，从短视频推荐策略中选择最优的短视频推荐策略，将该策略加载为实际使用的推荐引擎。

2.

发明公开
基于熵优化安全强化学习的特种设备流程控制方法及系统有权转让

公开(公告)号：CN114218867A

公开(公告)日：2022-03-22

申请号：CN202111563799.1

申请日：2021-12-20

Applicant: 暨南大学

Inventor： 郭洪飞 , 戴源志 , 曾云辉 , 廖梓钧 , 石国昕 , 李秀 , 李建庆

IPC: G06F30/27 , G06Q10/04 , G06F111/04

Abstract: 本发明提供了一种基于熵优化安全强化学习的特种设备流程控制方法及系统，属于人工智能技术领域。本发明根据特种设备生产的特点和实现的功能建立特种设备模型；提取生产线所需优化的参数，并定义符合特种设备生产特点的状态、动作、奖励函数、折扣因子、成本函数和策略模型，构建安全强化学习模型训练系统，采用马尔科夫决策过程进行训练；采用泛化优势估计算法实现基于Actor‑critic框架的熵优化安全强化学习算法，对马尔科夫决策过程中的每个策略设置上下边界，对特种设备进行流程控制。本发明采用的熵优化安全强化学习算法的流程控制，使得所构建的模型具有更好的泛化性，能够有效提高操作安全性、精准性。

3.

发明授权
基于熵优化安全强化学习的特种设备流程控制方法及系统有权转让

公开(公告)号：CN114218867B

公开(公告)日：2022-06-28

申请号：CN202111563799.1

申请日：2021-12-20

Applicant: 暨南大学

Inventor： 郭洪飞 , 戴源志 , 曾云辉 , 廖梓钧 , 石国昕 , 李秀 , 李建庆

IPC: G06F30/27 , G06Q10/04 , G06F111/04

Abstract: 本发明提供了一种基于熵优化安全强化学习的特种设备流程控制方法及系统，属于人工智能技术领域。本发明根据特种设备生产的特点和实现的功能建立特种设备模型；提取生产线所需优化的参数，并定义符合特种设备生产特点的状态、动作、奖励函数、折扣因子、成本函数和策略模型，构建安全强化学习模型训练系统，采用马尔科夫决策过程进行训练；采用泛化优势估计算法实现基于Actor‑critic框架的熵优化安全强化学习算法，对马尔科夫决策过程中的每个策略设置上下边界，对特种设备进行流程控制。本发明采用的熵优化安全强化学习算法的流程控制，使得所构建的模型具有更好的泛化性，能够有效提高操作安全性、精准性。

4.

发明公开
一种基于强化学习的个性化短视频推荐方法以及系统有权

公开(公告)号：CN113282787A

公开(公告)日：2021-08-20

申请号：CN202110567524.9

申请日：2021-05-24

Applicant: 暨南大学

Inventor： 郭洪飞 , 廖梓钧 , 陈世帆 , 曾云辉 , 何智慧 , 吴千华 , 蔡泽炬 , 张恒基

IPC: G06F16/735 , G06K9/62 , G06N20/00

Abstract: 本发明提出一种基于强化学习的个性化短视频推荐方法以及系统，个性化短视频推荐方法包括：收集单个用户的历史记录，得到真实数据分布和专家轨迹；将真实数据分布输入GAN‑SD算法，对用户的特征进行建模，得到用户特征分布；将用户特征分布和专家轨迹输入到MAIL算法，对用户的交互行为建模，得到用户的决策函数；得到用户特征分布和决策函数后，完成对用户的建模；建模推荐引擎和用户的马尔科夫决策过程，用TRPO+ANC算法训练推荐引擎的马尔科夫决策过程，根据得到的累积回报值确定不同动作下的短视频推荐策略，从短视频推荐策略中选择最优的短视频推荐策略，将该策略加载为实际使用的推荐引擎。

Patent Agency Ranking