一种多模态模型视觉感知能力探测方法及终端

    公开(公告)号:CN119338013A

    公开(公告)日:2025-01-21

    申请号:CN202411887056.3

    申请日:2024-12-20

    Abstract: 本发明涉及机器学习技术领域,公开了一种多模态模型视觉感知能力探测方法及终端,所述方法包括:获取多张检测图像,检测每张所述检测图像之中包含的对象;针对每张所述检测图像,均根据包含的对象构建正向提示答案对和负向提示答案对,以构成探测数据集;获取待探测模型,根据所述探测数据集探测所述待探测模型的性能,输出探测结果。本发明通过针对每个图像构建正向提示答案对和负向提示答案对,不仅简化了问题的构造,同时也要求模型在理解图像内容及其语境时不能仅依赖随机猜测,迫使模型需要正确理解图案和问题才能得到较好的探测结果,有效解决了在进行探测时,对部分模型无法准确的衡量模型的能力的问题。

Patent Agency Ranking