-
公开(公告)号:CN118887375B
公开(公告)日:2025-04-29
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
公开(公告)号:CN118570481B
公开(公告)日:2024-12-06
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
公开(公告)号:CN118887375A
公开(公告)日:2024-11-01
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
公开(公告)号:CN118570481A
公开(公告)日:2024-08-30
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
-
-