基于图像文本多模态的眼底图像基础模型预训练方法

    公开(公告)号:CN118397393A

    公开(公告)日:2024-07-26

    申请号:CN202410498479.X

    申请日:2024-04-24

    Applicant: 东南大学

    Abstract: 本发明公开了基于图像文本多模态的眼底图像基础模型预训练方法,获取前置原始眼底图像集和原始文本注释集;对前置原始文本注释集中的元素进行正则匹配和切分子注释,与原始眼底图像集中的眼底图像进行配对,辅以人工校对后得到高质量多模态视觉‑语言眼底数据集;构建特征提取模块和包含了图文匹配标签的视觉‑语言预训练模型;通过基于相似度引导的文本修正方法实现专家知识EK的融入;最后采取混合训练策略,将高质量多模态视觉‑语言眼底数据集和公共数据集中的图片和文本样本输入进行预训练得到合适的参数配置。本发明克服了现有预训练模型中无法有效地将文本中的专家先验知识融入模型的缺点,得到数据集上迁移性更好有效性更佳的训练模型。

Patent Agency Ranking