Patent search ap:("华南理工大学") AND inv:"王宇丰" Page 1

1.

发明公开
一种多模态模型视觉感知能力增强方法、设备及介质审中-实审

公开(公告)号：CN119809925A

公开(公告)日：2025-04-11

申请号：CN202411826999.5

申请日：2024-12-12

Applicant: 华南理工大学

Inventor： 谭明奎 , 陈卓琨 , 胡晋武 , 邓泽帅 , 王宇丰 , 杜卿

IPC: G06T3/4038 , G06T3/4053 , G06T5/50 , G06V10/80 , G06N5/04 , G06N3/0455 , G06N3/0464 , G06N3/08

Abstract: 本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质，其中方法包括：采集图像数据，并根据图像提出文本问题；挑选基于同一语言模型训练的多个多模态语言大模型，并合并语言模型的参数；基于输入图像，利用多个视觉编码器提取视觉特征；输入文本，通过语言模型对输入文本进行特征提取，获得文本特征；拼接视觉特征与文本特征，获得融合特征；将融合特征输入语言模型进行推理，输出推理结果。本发明无需额外训练，能够有效提高多模态任务的性能，并减少了部署开销。另外，利用本发明的技术，可以通过融合不同视觉编码器的优势，显著提升多模态大模型的视觉感知效果，同时降低计算资源需求。本发明可广泛应用于人工智能领域。

2.

发明公开
一种多智能体强化学习方法、装置及介质有权

公开(公告)号：CN116560239A

公开(公告)日：2023-08-08

申请号：CN202310824569.9

申请日：2023-07-06

Applicant: 华南理工大学 , 广东广物互联网科技有限公司

Inventor： 谭明奎 , 林坤阳 , 王宇丰 , 陈沛豪 , 杜卿 , 胡灏 , 李利

IPC: G05B13/04 , G06N20/00

Abstract: 本发明公开了一种多智能体强化学习方法、装置及介质，属于多个智能体行为自主控制技术领域。其中方法包括：获取观测，智能体根据观测获取动作概率分布，以及推理队友智能体基于观测的动作概率分布；根据获得的动作概率分布，计算每个智能体与队友智能体的行为一致性；通过动态缩放网络获取动态调节因子，根据动态调节因子计算行为一致性的内部奖励；根据链式求导法则，以最大化外部回报为目标，对动态缩放网络的参数进行优化；使用优化完成的策略实现多智能体的协作任务。本发明提出一种基于行为一致性的内在奖励，解决多智能体协作算法忽略智能体之间行为意图的配合，从而导致出现次优化策略的问题，能够有效地提高多智能体之间的协作性能。

3.

发明公开
一种主动聊天机器人构建方法、设备及介质审中-实审

公开(公告)号：CN119940407A

公开(公告)日：2025-05-06

申请号：CN202411848000.7

申请日：2024-12-16

Applicant: 超级机器人研究院(黄埔) , 华南理工大学

Inventor： 谭明奎 , 王宇丰 , 王骞玥 , 胡晋武 , 黄子腾 , 林坤阳 , 张梓填 , 陈沛豪 , 胡宇 , 杜卿

IPC: G06N3/045 , G06N3/09 , G06N3/006 , G06F16/3329

Abstract: 本发明公开了一种主动聊天机器人构建方法、装置、设备及介质，其中方法包括：构建以用户为中心的聊天质量评估器，用于评估聊天机器人对用户背景信息、聊天偏好的主动感知能力；构建用户背景数据集，用来让大模型扮演不同背景身份的用户智能体，和聊天机器人展开多轮对话聊天；对话语料收集与迭代课程学习，用来生成高质量对话语料，并使用迭代课程学习的方法微调聊天机器人对应的大模型，以提升模型对用户背景信息、聊天偏好的主动感知能力。本发明能够让聊天机器人主动关注用户的背景信息和聊天兴趣，给出符合用户聊天偏好的回答，从而提升用户的对话参与度与满意度，改进人机交互体验。本发明可广泛应用于人工智能技术领域。

4.

发明授权
一种多智能体强化学习方法、装置及介质有权

公开(公告)号：CN116560239B

公开(公告)日：2023-09-12

申请号：CN202310824569.9

申请日：2023-07-06

Applicant: 华南理工大学 , 广东广物互联网科技有限公司

Inventor： 谭明奎 , 林坤阳 , 王宇丰 , 陈沛豪 , 杜卿 , 胡灏 , 李利

IPC: G05B13/04 , G06N20/00

Abstract: 本发明公开了一种多智能体强化学习方法、装置及介质，属于多个智能体行为自主控制技术领域。其中方法包括：获取观测，智能体根据观测获取动作概率分布，以及推理队友智能体基于观测的动作概率分布；根据获得的动作概率分布，计算每个智能体与队友智能体的行为一致性；通过动态缩放网络获取动态调节因子，根据动态调节因子计算行为一致性的内部奖励；根据链式求导法则，以最大化外部回报为目标，对动态缩放网络的参数进行优化；使用优化完成的策略实现多智能体的协作任务。本发明提出一种基于行为一致性的内在奖励，解决多智能体协作算法忽略智能体之间行为意图的配合，从而导致出现次优化策略的问题，能够有效地提高多智能体之间的协作性能。

Patent Agency Ranking