基于思维链条的图像级自动提示生成目标检测方法

    公开(公告)号:CN119181008A

    公开(公告)日:2024-12-24

    申请号:CN202411294700.6

    申请日:2024-09-14

    Abstract: 本发明提出了基于思维链条的图像级提示自动生成目标检测方法,属于多模态目标检测领域。本发明提出的方法包括步骤:1)将图像输入概念提取模块,筛选前景物体区域并识别;2)建立常识知识图谱GC,删除初步提示Praw中不共存物体;3)使用大语言模型对Pprune进行场景联想和概念推理补充;4)设计自适应阈值算法,删除联想扩充后的提示Psearch中置信度较低的概念得到图像级提示Pimage;5)将提示Pimage与对应图像I输入视觉语言模型完成检测。本发明基于思维链条思想,利用多模态大模型的泛化能力和大语言模型的文本生成能力,设计了图像级提示自动生成方法,有效提高了视觉语言模型目标检测的准确率。

    基于视觉语言模型的多激励融合零样本病变检测方法

    公开(公告)号:CN117633558A

    公开(公告)日:2024-03-01

    申请号:CN202311650342.3

    申请日:2023-12-04

    Abstract: 本发明提出了基于视觉语言模型的多激励融合零样本病变检测算法,属于多模态医学图像处理技术领域。本发明提出的方法包括步骤:1)将多个激励直接输入模型中,获得对应的中间变量C。2)选择合适的融合策略,对中间变量C进行归类。3)将分类后的中间变量C′分别进行位置聚类、尺寸聚类、类别标签修正、置信度阈值筛选四步操作。4)将筛选后的来自不同激励的进行多级特征融合筛选后,送入小型分类网络中进行进一步的分类判断,得到最终的融合结果。本发明通过集成学习的思想以及深度学习基本网络框架的辅助,打破了原有的单输入网络结构的限制,实现了没有数量限制的多激励融合,从而大大提高零样本条件下,视觉语言模型对医学图像领域病变检测任务的准确率。

Patent Agency Ranking