Patent search ap:("清华大学") AND inv:"娄树理" Page 1

1.

发明公开
一种光学-红外融合场景语义描述方法及装置审中-实审

公开(公告)号：CN116503860A

公开(公告)日：2023-07-28

申请号：CN202310345390.5

申请日：2023-04-03

Applicant: 清华大学

Inventor： 刘华平 , 王岩 , 袁小虎 , 娄树理

IPC: G06V20/70 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08 , G06F40/211 , G06F40/289 , G06T7/80

Abstract: 本发明提出一种光学‑红外融合场景语义描述方法及装置，属于计算机视觉、图像字幕领域。其中，所述方法包括：对目标场景获取对齐的一对可见光图像和红外图像；将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络，所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量，对所述融合后的特征向量进行注意力机制学习，输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。本发明通过同时获取可见光图像与红外图像，从两幅图像中获取目标及其热源信息，可实现随时随地对环境信息进行捕获和解译，填补了环境信息解译在极端环境下使用范围的空白。

2.

发明公开
基于大模型的红外-光学融合场景语义描述方法及装置审中-实审

公开(公告)号：CN118898842A

公开(公告)日：2024-11-05

申请号：CN202410866245.6

申请日：2024-07-01

Applicant: 清华大学

Inventor： 刘华平 , 王凯 , 娄树理 , 袁小虎

IPC: G06V20/70 , G06V20/54 , G06V10/143 , G06V10/25 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N5/04

Abstract: 本发明提出一种基于大模型的红外‑光学融合场景语义描述方法及装置，属于图像描述、计算机视觉技术领域。其中，所述方法包括：将获取的可见光和红外图像对输入预设的场景描述模型，得到该图像对的初始场景描述语句；将该图像对的红外图像输入预设的目标检测模型，得到红外图像中每个目标检测框对应目标的种类以及目标的中心点坐标和相对尺寸；将上述信息输入提示优化完毕的大语言模型，该大语言模型输出对应该图像对的最终场景描述语句。本发明将目标检测技术、场景描述技术通过大语言模型技术结合起来，可克服以往图像描述模型不能适用于暗光场景或描述不准确的缺陷，特别是在光线不足的条件下可生成准确详细的场景描述，有较高的应用价值。

3.

发明公开
一种异构机器人协同目标搜索系统及方法审中-实审

公开(公告)号：CN116862143A

公开(公告)日：2023-10-10

申请号：CN202310694841.6

申请日：2023-06-13

Applicant: 清华大学

Inventor： 刘华平 , 邓茗芳 , 汪颖 , 袁小虎 , 赵怀林 , 娄树理

IPC: G06Q10/0631 , G06F40/205 , G06N5/01

Abstract: 本发明提出具一种异构机器人协同目标搜索系统及方法，属于多机器人协作领域。其中，所述系统包括相互连接的通讯模块、任务分配模块和多个异构机器人；所述通讯模块用于获取用户自然语言指令并进行关系抽取处理，得到包含目标物体及其相关信息的文本抽取结果并发送给搜索任务分配模块；所述任务分配模块用于生成所述目标物体的搜索任务并分解为每个机器人基于自身条件可执行的子任务；所述机器人用于执行子任务并将结果通过所述通讯模块反馈给用户。本发明改善了同构机器人在视线盲区搜索任务受到局限的缺陷，充分利用异构机器人的身高差带来的不同的视线范围优势，对执行更加精准的协同搜索任务具有极大的实用意义。

Patent Agency Ranking