Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"黄旭忠" Page 1

1.

发明公开
一种博弈策略优化方法、系统及存储介质有权

公开(公告)号：CN111291890A

公开(公告)日：2020-06-16

申请号：CN202010399728.1

申请日：2020-05-13

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 胡书豪 , 黄旭忠 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N5/04 , G06N3/08 , G06N20/00

Abstract: 本发明提供了一种博弈策略优化方法、系统及存储介质，该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是：本发明采用中心化训练和分散式执行的方式，提高动作估值网络的准确性，同时引入了全局基线奖励来更准确地衡量智能体的动作收益，以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估，平衡了策略优化过程中的探索与利用。

2.

发明授权
一种博弈策略优化方法、系统及存储介质有权

公开(公告)号：CN111291890B

公开(公告)日：2021-01-01

申请号：CN202010399728.1

申请日：2020-05-13

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 胡书豪 , 黄旭忠 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N5/04 , G06N3/08 , G06N20/00

Abstract: 本发明提供了一种博弈策略优化方法、系统及存储介质，该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是：本发明采用中心化训练和分散式执行的方式，提高动作估值网络的准确性，同时引入了全局基线奖励来更准确地衡量智能体的动作收益，以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估，平衡了策略优化过程中的探索与利用。

3.

发明授权
多智能体信息融合方法、装置、电子设备及可读存储介质有权

公开(公告)号：CN114139637B

公开(公告)日：2022-11-04

申请号：CN202111470623.1

申请日：2021-12-03

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 黄新昊 , 漆舒汉 , 张加佳 , 刘洋 , 蒋琳 , 罗文坚 , 高翠芸 , 李君一 , 黄旭忠

IPC: G06V10/80 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/04 , G06N3/08

Abstract: 本申请公开了一种多智能体信息融合方法、装置、电子设备及可读存储介质。其中，方法包括构建操作预测网络模型和门控注意力机制模型，门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。将多智能体应用模拟环境的状态信息输入至操作预测网络模型，得到各智能体的预测动作；根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于门控注意力机制模型的强化学习算法更新操作预测网络模型，循环训练操作预测网络模型直至收敛。本申请提升了多智能体信息融合效果。

4.

发明公开
多智能体信息融合方法、装置、电子设备及可读存储介质有权

公开(公告)号：CN114139637A

公开(公告)日：2022-03-04

申请号：CN202111470623.1

申请日：2021-12-03

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 黄新昊 , 漆舒汉 , 张加佳 , 刘洋 , 蒋琳 , 罗文坚 , 高翠芸 , 李君一 , 黄旭忠

IPC: G06K9/62 , G06V10/80 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/04 , G06N3/08

Abstract: 本申请公开了一种多智能体信息融合方法、装置、电子设备及可读存储介质。其中，方法包括构建操作预测网络模型和门控注意力机制模型，门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合，且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。将多智能体应用模拟环境的状态信息输入至操作预测网络模型，得到各智能体的预测动作；根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息，基于门控注意力机制模型的强化学习算法更新操作预测网络模型，循环训练操作预测网络模型直至收敛。本申请提升了多智能体信息融合效果。

Patent Agency Ranking