Patent search ap:("南湖实验室") AND inv:"平洋" Page 1

1.

发明授权
用于生成对话策略学习用高质量模拟经验的方法有权

公开(公告)号：CN112989017B

公开(公告)日：2021-08-10

申请号：CN202110532471.7

申请日：2021-05-17

Applicant: 南湖实验室

Inventor： 平洋 , 曹江 , 方文其 , 吴冠霖 , 栾绍童 , 闫顼

IPC: G06F16/332 , G06N3/00 , G06N20/00

Abstract: 本发明提供了一种用于生成对话策略学习用高质量模拟经验的方法，属于机器学习技术领域，包括以下步骤：S1.由基于GP的世界模型预测产生模拟经验；S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题，能够生成高质量的模拟经验，以补充有限的实际用户经验，有效避免初始阶段因为真实经验较少而导致学习效果不佳，学习效率低等问题。

2.

发明公开
利用策略模型辅助训练的GP世界模型及其训练方法无效

公开(公告)号：CN114492215A

公开(公告)日：2022-05-13

申请号：CN202210404483.6

申请日：2022-04-18

Applicant: 南湖实验室

Inventor： 葛品 , 吴冠霖 , 方文其 , 平洋 , 栾绍童 , 缪正元 , 戴迎枫 , 沈源源 , 金新竹

IPC: G06F30/27 , G06N20/00 , G06Q50/30

Abstract: 本发明公开了一种利用策略模型辅助训练的GP世界模型及其训练方法，该GP世界模型包括用于训练世界模型的损失函数，所述的损失函数包括第一损失函数和第二损失函数，所述的第一损失函数为GP世界模型的自有损失函数，所述第二损失函数为策略模型的损失函数，训练方法包括：S1.世界模型利用损失函数更新模型参数；S2.策略模型利用损失函数更新模型参数，并保存本次训练中每一步的；S3.对取平均值作为后代入，用于下一次世界模型的训练。本发明提出通过策略模型辅助训练GP世界模型方法的训练机制，能够利用策略训练的稳定性来达到调制训练世界模型的目的，从而提高世界模型的训练效果和性能。

3.

发明公开
基于GP与PPO实现连续性动作决策的智能决策方法和系统有权

公开(公告)号：CN114647986A

公开(公告)日：2022-06-21

申请号：CN202210404484.0

申请日：2022-04-18

Applicant: 南湖实验室

Inventor： 方文其 , 吴冠霖 , 葛品 , 平洋 , 栾绍童 , 戴迎枫 , 缪正元 , 沈源源 , 金新竹

IPC: G06F30/27 , G06N5/00

Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统，包括世界模型、策略模型和经验池，由世界模型生成的模拟经验被存入所述的经验池，所述的世界模型为基于GP的世界模型，所述的策略模型包括PPO算法，且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法，将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法，改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题，从而实现基于Dyna‑框架的连续性动作决策。

4.

发明公开
用于检测对话策略学习中模拟用户经验质量的方法和系统有权

公开(公告)号：CN112989016A

公开(公告)日：2021-06-18

申请号：CN202110532470.2

申请日：2021-05-17

Applicant: 南湖实验室

Inventor： 曹江 , 吴冠霖 , 方文其 , 平洋 , 栾绍童 , 闫顼

IPC: G06F16/332 , G06F16/36 , G06N3/00 , G06N20/00

Abstract: 本发明提供了一种用于检测对话策略学习中模拟用户经验质量的方法和系统，其方法包括以下步骤：S1.由世界模型生成模拟经验；S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测；S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。本方案引入了基于KL散度的质量检测器，能够更轻松有效地评估模拟经验的质量，并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率，实现有效控制模拟经验质量的目的。

5.

发明公开
一种基于单笔测量的机器人运动学参数标定方法及系统有权

公开(公告)号：CN117140535A

公开(公告)日：2023-12-01

申请号：CN202311407697.X

申请日：2023-10-27

Applicant: 南湖实验室

Inventor： 庄正浩 , 平洋 , 司峡溪 , 黄琮凯 , 沈源源 , 周凌峰 , 刘文斌 , 金新竹 , 张晨焘

IPC: B25J9/16 , B25J19/00

Abstract: 本方案公开了一种基于单笔测量的机器人运动学参数标定方法及系统，方法包括：S1.机器人和标定块分别被安装至底板上各自的对应位置；S2.对末端执行器处的位移传感器进行零位标定；S3.驱动机器人末端移动，使用六点定位方法对标定块表面进行点位测量，得到名义位姿；S4.更换标定块在底板上的位置并重复步骤S3，得到至少两组名义位姿；S5.将上述标定块名义位姿与基于已知的相对位置得到的实际位姿相比较误差，对机器人运动学名义参数进行修正。通过提出简单的标定系统和基于该标定系统实现的标定方法，无需使用价格昂贵的外部测量设备，仅利用低成本的位移传感器和相关简单治具即可完成机器人运动学参数标定。

6.

发明公开
用于对话策略学习的基于GP的深度Dyna-Q方法有权

公开(公告)号：CN113392956A

公开(公告)日：2021-09-14

申请号：CN202110532520.7

申请日：2021-05-17

Applicant: 南湖实验室

Inventor： 方文其 , 曹江 , 吴冠霖 , 平洋 , 栾绍童 , 闫顼

IPC: G06N3/04 , G06N3/08 , G06F16/332

Abstract: 本发明提供了一种用于对话策略学习的基于GP的深度Dyna‑Q方法，包括以下步骤：S1.由基于GP的世界模型生成模拟经验；S2.由基于KL散度的质量检测器对所述的模拟经验进行质量检测；S3.使用质量检测合格的模拟经验对对话策略模型进行训练。本发明的世界模型抛弃了传统DNN模型，而是将世界模型构造成一种高斯过程模型，具有易于分析的优点；并且基于KL散度的质量检测器能够有效控制模拟经验质量，通过引入KL散度来检查经验的分布，不需要额外工作来设计和训练复杂的质量检测器，从而更轻松的评估模拟经验的质量，并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率。

7.

发明公开
用于生成对话策略学习用高质量模拟经验的方法有权

公开(公告)号：CN112989017A

公开(公告)日：2021-06-18

申请号：CN202110532471.7

申请日：2021-05-17

Applicant: 南湖实验室

Inventor： 平洋 , 曹江 , 方文其 , 吴冠霖 , 栾绍童 , 闫顼

IPC: G06F16/332 , G06N3/00 , G06N20/00

Abstract: 本发明提供了一种用于生成对话策略学习用高质量模拟经验的方法，属于机器学习技术领域，包括以下步骤：S1.由基于GP的世界模型预测产生模拟经验；S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题，能够生成高质量的模拟经验，以补充有限的实际用户经验，有效避免初始阶段因为真实经验较少而导致学习效果不佳，学习效率低等问题。

8.

发明授权
一种基于单笔测量的机器人运动学参数标定方法及系统有权

公开(公告)号：CN117140535B

公开(公告)日：2024-02-02

申请号：CN202311407697.X

申请日：2023-10-27

Applicant: 南湖实验室

Inventor： 庄正浩 , 平洋 , 司峡溪 , 黄琮凯 , 沈源源 , 周凌峰 , 刘文斌 , 金新竹 , 张晨焘

IPC: B25J9/16 , B25J19/00

Abstract: 本方案公开了一种基于单笔测量的机器人运动学参数标定方法及系统，方法包括：S1.机器人和标定块分别被安装至底板上各自的对应位置；S2.对末端执行器处的位移传感器进行零位标定；S3.驱动机器人末端移动，使用六点定位方法对标定块表面进行点位测量，得到名义位姿；S4.更换标定块在底板上的位置并重复步骤S3，得到至少两组名义位姿；S5.将上述标定块名义位姿与基于已知的相对位置得到的实际位姿相比较误差，对机器人运动学名义参数进行修正。通过提出简单的标定系统和基于该标定系统实现的标定方法，无需使用价格昂贵的外部测量设备，仅利用低成本的位移传感器和相关简单治具(56)对比文件卢科青;王文;陈子辰.点激光测头激光束方向标定.光学精密工程.2010,(04),第880-886页.

9.

发明授权
基于GP与PPO实现连续性动作决策的智能决策方法和系统有权

公开(公告)号：CN114647986B

公开(公告)日：2023-08-08

申请号：CN202210404484.0

申请日：2022-04-18

Applicant: 南湖实验室

Inventor： 方文其 , 吴冠霖 , 葛品 , 平洋 , 栾绍童 , 戴迎枫 , 缪正元 , 沈源源 , 金新竹

IPC: G06F30/27 , G06N5/01 , G06N20/00

Abstract: 本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统，包括世界模型、策略模型和经验池，由世界模型生成的模拟经验被存入所述的经验池，所述的世界模型为基于GP的世界模型，所述的策略模型包括PPO算法，且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法，将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法，改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题，从而实现基于Dyna‑框架的连续性动作决策。

10.

发明授权
用于对话策略学习的基于GP的深度Dyna-Q方法有权

公开(公告)号：CN113392956B

公开(公告)日：2022-02-11

申请号：CN202110532520.7

申请日：2021-05-17

Applicant: 南湖实验室

Inventor： 方文其 , 曹江 , 吴冠霖 , 平洋 , 栾绍童 , 闫顼

IPC: G06N3/04 , G06N3/08 , G06F16/332

Abstract: 本发明提供了一种用于对话策略学习的基于GP的深度Dyna‑Q方法，包括以下步骤：S1.由基于GP的世界模型生成模拟经验；S2.由基于KL散度的质量检测器对所述的模拟经验进行质量检测；S3.使用质量检测合格的模拟经验对对话策略模型进行训练。本发明的世界模型抛弃了传统DNN模型，而是将世界模型构造成一种高斯过程模型，具有易于分析的优点；并且基于KL散度的质量检测器能够有效控制模拟经验质量，通过引入KL散度来检查经验的分布，不需要额外工作来设计和训练复杂的质量检测器，从而更轻松的评估模拟经验的质量，并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification