Patent search ap:("电子科技大学长三角研究院(衢州)") AND inv:"李彤" Page 1

1.

发明公开
一种基于多智能体深度强化学习与最小二乘的定位方法有权

公开(公告)号：CN114578335A

公开(公告)日：2022-06-03

申请号：CN202210207643.8

申请日：2022-03-03

Applicant: 电子科技大学长三角研究院(衢州)

Inventor： 郭贤生 , 李彤 , 张妍 , 段林甫 , 张玉坤 , 李林 , 黄健

IPC: G01S11/06 , G06F17/18

Abstract: 本发明属于无人机辅助轨迹定位的方法，具体涉及一种基于多智能体深度强化学习与最小二乘算法的定位方法。本发明建模一个无人机群与目标机器人相互通信的场景，利用有标签的无人机群和目标机器人的轨迹数据，以及二者之间的接收信号强度进行定位。首先使用最小二乘算法对目标位置进行定位，然后基于多智能体深度强化学习算法对无人机群进行自主定位，同时评估对目标位置的估计。训练过程中，使用深度神经网络处理高维状态输入，借助标签位置信息计算奖赏值，并考虑到多个智能体之间的异构性，进行了相关的仿真实验。通过训练可以得到一个自适应的网络模型，对处理高维异构数据也有一定的鲁棒性。因此，本发明是一种良好的定位替代技术。

2.

发明授权
一种基于多智能体深度强化学习与最小二乘的定位方法有权

公开(公告)号：CN114578335B

公开(公告)日：2024-08-16

申请号：CN202210207643.8

申请日：2022-03-03

Applicant: 电子科技大学长三角研究院(衢州)

Inventor： 郭贤生 , 李彤 , 张妍 , 段林甫 , 张玉坤 , 李林 , 黄健

IPC: G01S11/06 , G06F17/18

Abstract: 本发明属于无人机辅助轨迹定位的方法，具体涉及一种基于多智能体深度强化学习与最小二乘算法的定位方法。本发明建模一个无人机群与目标机器人相互通信的场景，利用有标签的无人机群和目标机器人的轨迹数据，以及二者之间的接收信号强度进行定位。首先使用最小二乘算法对目标位置进行定位，然后基于多智能体深度强化学习算法对无人机群进行自主定位，同时评估对目标位置的估计。训练过程中，使用深度神经网络处理高维状态输入，借助标签位置信息计算奖赏值，并考虑到多个智能体之间的异构性，进行了相关的仿真实验。通过训练可以得到一个自适应的网络模型，对处理高维异构数据也有一定的鲁棒性。因此，本发明是一种良好的定位替代技术。

3.

发明公开
一种面向异构环境的基于深度强化学习的轨迹定位方法有权

公开(公告)号：CN114727229A

公开(公告)日：2022-07-08

申请号：CN202210325226.3

申请日：2022-03-30

Applicant: 电子科技大学长三角研究院(衢州)

Inventor： 郭贤生 , 李彤 , 张玉坤 , 李林 , 黄健 , 段林甫 , 钱博诚

IPC: H04W4/029 , H04W4/33 , H04W64/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明属于室内定位技术领域，具体是涉及一种面向异构环境的基于深度强化学习的轨迹定位方法。本发明充分利用了环境中的观测和智能体自身的历史动态信息，以智能体的位置、环境中具有设备异构性的RSS向量和过去n个时刻的历史动作为状态，用于动作的选择。再基于近场条件选择强于RSS阈值对应的APs，以构成选定的APs集合，再根据集合的大小计算最终奖赏值。依据MDP中设计的各要素对智能体的位置进行估计，并以奖赏值为学习导向基于经验重放机制和目标网络进行深度强化学习算法的迭代训练。本发明基于路径损耗模型得到具有设备异构性的仿真RSS数据，实验结果证明本发明所提方法能够实现较高的定位精度，并对处理异构RSS数据也具有一定的鲁棒性。

4.

发明授权
一种面向异构环境的基于深度强化学习的轨迹定位方法有权

公开(公告)号：CN114727229B

公开(公告)日：2025-01-17

申请号：CN202210325226.3

申请日：2022-03-30

Applicant: 电子科技大学长三角研究院(衢州)

Inventor： 郭贤生 , 李彤 , 张玉坤 , 李林 , 黄健 , 段林甫 , 钱博诚

IPC: H04W4/029 , H04W4/33 , H04W64/00 , G06N3/092 , G06N3/08 , G06N20/00

Abstract: 本发明属于室内定位技术领域，具体是涉及一种面向异构环境的基于深度强化学习的轨迹定位方法。本发明充分利用了环境中的观测和智能体自身的历史动态信息，以智能体的位置、环境中具有设备异构性的RSS向量和过去n个时刻的历史动作为状态，用于动作的选择。再基于近场条件选择强于RSS阈值对应的APs，以构成选定的APs集合，再根据集合的大小计算最终奖赏值。依据MDP中设计的各要素对智能体的位置进行估计，并以奖赏值为学习导向基于经验重放机制和目标网络进行深度强化学习算法的迭代训练。本发明基于路径损耗模型得到具有设备异构性的仿真RSS数据，实验结果证明本发明所提方法能够实现较高的定位精度，并对处理异构RSS数据也具有一定的鲁棒性。

Patent Agency Ranking