-
公开(公告)号:CN118736362A
公开(公告)日:2024-10-01
申请号:CN202410750467.1
申请日:2024-06-12
Applicant: 海南大学
Abstract: 本发明公开了基于多模型融合的可解释图像文本化描述方法,输入的图像进行特征提取,之后将提取出的图像特征输入预测模型,最后得出预测结果。本发明在数据集方面,通过向ChatGPT输入严格的提示来生成相应的图片,形成了一个高质量数据集。在模型方面,应用了添加解析注意力机制的CLIP模型来对输入的图像进行高级特征的提取,利用其强大的跨模态理解能力,为后续的任务提供支持。对三个模型分别应用LoRA微调技术,使模型能够更灵活地适应不同区域的特征关系,并在局部区域灵活调整注意力,从而减轻模型的计算负担,最后通过对三个模型预测结果的集成融合,提高了预测的精确度。另外,对模型的不同部分进行模块化设计,提高了模型的可扩展性和灵活性。