Patent search ap:("海南大学") AND inv:"黄喜文" Page 1

1.

发明公开
基于信道状态信息的水声物理层密钥生成技术审中-实审

公开(公告)号：CN114745716A

公开(公告)日：2022-07-12

申请号：CN202210566000.2

申请日：2022-05-23

Applicant: 海南大学

Inventor： 羊秋玲 , 赵欣伟 , 陈佳男 , 黄喜文 , 李鹏程 , 陈超

IPC: H04W12/041 , H04W12/0431 , H04L25/02 , H04B11/00 , H04B13/02

Abstract: 本发明设计了一种适用于水声信道的物理层密钥生成技术，基于信道状态信息的水声物理层密钥生成技术，该密钥生成技术设计主要包括下列步骤：水声信道状态感知，对水声信道中的信道状态信息进行测量估计；进一步对感知后的测量值进行特征量化，得到初始密钥；最后，对初始密钥进行密钥协商，将不一致的密钥序列协商纠错，保证最后的密钥高度一致。

2.

发明公开
一种基于深度强化学习的车辆最优控制方法有权

公开(公告)号：CN118372851A

公开(公告)日：2024-07-23

申请号：CN202410447443.9

申请日：2024-04-15

Applicant: 海南大学

Inventor： 羊秋玲 , 费汉生 , 黄喜文 , 黄向党

IPC: B60W60/00 , B60W50/00 , G05D1/65 , G05D1/644 , G05D1/43 , G06N3/092 , G05D109/10

Abstract: 本发明公开一种基于深度强化学习的车辆最优控制方法，步骤1，建立策略网络和相互独立的价值网络；步骤2，控制车辆运行，收集样本；步骤3，将数据st、at输入价值网络获取两个价值评分并取其中较小值来计算预测得分；将状态st+1输入到策略网络得到动作at+1，将数据st+1、at+1分别输入两个价值网络中两个价值评分并根据价值评分和预测得分来确定TD误差，对价值网络进行更新；步骤4，每更新两次价值网络后对策略网络进行更新；步骤5，重复步骤2至4进行网络参数调优，直至策略网络达到预期的效果，输出最终更新得到的策略网络。本发明能够优化控制车辆的过程中确保稳定性。

3.

发明授权
一种基于深度强化学习的车辆最优控制方法有权

公开(公告)号：CN118372851B

公开(公告)日：2024-11-29

申请号：CN202410447443.9

申请日：2024-04-15

Applicant: 海南大学

Inventor： 羊秋玲 , 费汉生 , 黄喜文 , 黄向党

IPC: B60W60/00 , B60W50/00 , G05D1/65 , G05D1/644 , G05D1/43 , G06N3/092 , G05D109/10

Abstract: 本发明公开一种基于深度强化学习的车辆最优控制方法，步骤1，建立策略网络和相互独立的价值网络；步骤2，控制车辆运行，收集样本；步骤3，将数据st、at输入价值网络获取两个价值评分并取其中较小值来计算预测得分；将状态st+1输入到策略网络得到动作at+1，将数据st+1、at+1分别输入两个价值网络中两个价值评分并根据价值评分和预测得分来确定TD误差，对价值网络进行更新；步骤4，每更新两次价值网络后对策略网络进行更新；步骤5，重复步骤2至4进行网络参数调优，直至策略网络达到预期的效果，输出最终更新得到的策略网络。本发明能够优化控制车辆的过程中确保稳定性。

Patent Agency Ranking