Patent search ap:("海南大学") AND inv:"王盼" Page 1

1.

发明公开
基于多模型融合的可解释图像文本化描述方法审中-实审

公开(公告)号：CN118736362A

公开(公告)日：2024-10-01

申请号：CN202410750467.1

申请日：2024-06-12

Applicant: 海南大学

Inventor： 徐博 , 王盼 , 唐浩 , 高锦雄 , 于明天

IPC: G06V10/80 , G06V10/82 , G06N3/045 , G06N3/08

Abstract: 本发明公开了基于多模型融合的可解释图像文本化描述方法，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。本发明在数据集方面，通过向ChatGPT输入严格的提示来生成相应的图片，形成了一个高质量数据集。在模型方面，应用了添加解析注意力机制的CLIP模型来对输入的图像进行高级特征的提取，利用其强大的跨模态理解能力，为后续的任务提供支持。对三个模型分别应用LoRA微调技术，使模型能够更灵活地适应不同区域的特征关系，并在局部区域灵活调整注意力，从而减轻模型的计算负担，最后通过对三个模型预测结果的集成融合，提高了预测的精确度。另外，对模型的不同部分进行模块化设计，提高了模型的可扩展性和灵活性。

Patent Agency Ranking