-
公开(公告)号:CN119006598B
公开(公告)日:2025-04-29
申请号:CN202411457850.4
申请日:2024-10-18
Applicant: 中国科学院自动化研究所
IPC: G06T7/73 , G06N3/0455 , G06F18/25
Abstract: 本发明提供一种基于深度学习的姿态估计方法以及系统,应用于图像识别领域,其中,方法包括:获取目标图像、自然语言指令以及模板图像;通过预设的提示生成器,分别对自然语言指令与模板图像进行编码,得到文本特征与视觉特征;通过提示生成器的大语言模型,对文本特征与视觉特征进行多模态特征融合,得到多模态特征信息;通过提示生成器的视觉嵌入投影层,基于多模态特征信息,生成姿态提示向量;将目标图像与姿态提示向量输入至预设的姿态估计器,得到姿态估计器输出的关键点热力图;对关键点热力图进行关键点位置解析,得到目标图像的姿态估计结果。通过本发明能够灵活地适应不同的类别的姿态估计需求。
-
公开(公告)号:CN112801238A
公开(公告)日:2021-05-14
申请号:CN202110403926.5
申请日:2021-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
-
公开(公告)号:CN111738174A
公开(公告)日:2020-10-02
申请号:CN202010592997.X
申请日:2020-06-25
Applicant: 中国科学院自动化研究所 , 中国科学技术信息研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于深度解耦的人体实例解析方法、系统,旨在为了解决漏检和误检影响实例人体解析识别精度的问题,本发明方法包括:获取输入图像中候选区域的实例检测框和特征;所述候选区域为人体实例的候选区域;所述人体实例包括人体整体实例、人体部件实例;基于所述候选区域的特征,获取候选区域对应实例的实例掩模和实例特征;基于各候选区域对应的实例检测框、实例掩模、实例特征,通过层级式聚类算法进行人体整体-人体部件关联聚类,获取人体实例解析结果。本发明可以提升实例人体解析的识别精度并减少人体实例的漏检和误检。
-
公开(公告)号:CN119323300A
公开(公告)日:2025-01-17
申请号:CN202411306469.8
申请日:2024-09-19
Applicant: 中铁建设集团有限公司 , 中国科学院自动化研究所
IPC: G06Q10/063 , G06Q50/08 , G06N5/022 , G06N3/0455 , G06T3/04 , G06T11/60 , G06V30/422 , G06N5/04
Abstract: 本发明公开了一种建筑施工方案多模型管理系统及其方法,归属于建筑施工管理的技术领域。该系统基于建筑施工方案自然语言处理模型由四个子系统构成:施工行业多模态专业知识问答系统、施工行业专业文档编制系统、施工行业多模态检索系统和施工方案内容审核系统。其中施工行业专业文档编制系统采用多模态扩散大模型技术,由此建立的建造图像生成系统,能智能化地响应用户输入的文本需求,自动生成与之匹配的建筑施工图像,或对用户上传的建筑图像进行风格转换,以创造出满足特定需求的建筑图像,为用户提供即时的建筑建造参考图纸,通过一键生成图像的功能,大幅降低用户在制图时的工作量,显著提升建筑建造方案撰写阶段的工作效率。
-
公开(公告)号:CN119169339A
公开(公告)日:2024-12-20
申请号:CN202411050317.6
申请日:2024-08-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/44 , G06V10/75 , G06F18/2431 , G06F18/22 , G06N3/045 , G06N3/0464
Abstract: 本发明提供一种多标签图像分类方法、装置、设备、存储介质及程序产品,应用于图像处理技术领域。该方法包括:获取待分类图像的高分辨率特征图,所述待分类图像中包括至少两个物体类别;确定所述待分类图像的至少两个物体类别的像素掩码,将所述像素掩码映射到所述高分辨率特征图上进行掩码平均操作,得到目标图像特征;将包含类别属性描述与类别名称的文本特征与所述高分辨率特征图进行交互处理,得到包含视觉信息的目标文本特征;将所述目标图像特征与所述目标文本特征进行匹配,以确定所述待分类图像的类别标签。
-
公开(公告)号:CN119027861A
公开(公告)日:2024-11-26
申请号:CN202411507920.2
申请日:2024-10-28
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06F40/205 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/08 , G06N5/022 , G06V10/82 , G06V20/70 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于开放词汇的视频异常检测方法、装置以及电子设备,应用于视频异常检测技术领域,其中,包括:对区域视频数据进行特征提取,得到视觉信息与文本信息;对视觉信息进行图像编码,得到帧级视觉特征;确定帧级视觉特征的局部时间依赖关系与全局时序依赖关系,得到序列时序特征;对增强文本信息进行文本编码,得到标签文本特征;基于帧级视觉特征、序列时序特征以及标签文本特征,确定区域视频数据的已知类别异常与未见类别异常;对已知类别异常进行特定类别分类,得到特定异常行为;对未见类别异常进行无类别检测,得到未见类别异常行为,通过本申请能够提高视频数据中异常行为检测的准确率。
-
公开(公告)号:CN119003741A
公开(公告)日:2024-11-22
申请号:CN202411465874.4
申请日:2024-10-21
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/0455 , G06N3/084 , G06N5/04 , G06F18/213 , G06F18/22 , G06F18/25
Abstract: 本发明提供一种基于自我问答的可信多模态大模型推理方法及装置,涉及人工智能技术领域,方法包括:获取多模态数据,并进行特征提取得到对应的多模态令牌特征;获取针对多模态数据的提问问题,将提问问题与多模态令牌特征输入到多模态大模型中进行第一问答;并将得到的第一回答文本以及提示词输入到多模态大模型进行第二问答,得到第二回答文本,确定第一回答文本与第二回答文本的相似度得分,当相似度得分大于相似度阈值时,将第一回答文本作为提问问题的回答文本。通过本申请,克服大语言模型在进行问答时过于依赖问答知识库,且生成的回答文本准确性和可信度低的缺陷。
-
公开(公告)号:CN118864876A
公开(公告)日:2024-10-29
申请号:CN202410860540.0
申请日:2024-06-28
Applicant: 中国科学院自动化研究所
IPC: G06V10/42 , G06V10/44 , G06F18/213 , G06V10/764 , G06F40/186 , G06F40/166 , G06F18/25 , G06N3/0464 , G06F18/22
Abstract: 本发明提供一种基于图文预训练模型的零样本异常检测方法、装置,包括:对待检测样本图像进行图像特征提取,得到待检测样本图像的局部特征和全局特征;调用大语言模型生成针对待检测样本图像的正常描述文本和异常描述文本;将正常描述文本、异常描述文本分别与手工编写的文本模板、自适应学习的文本模板结合,对结合后的文本进行文本特征提取处理,得到正常文本特征和异常文本特征;基于局部特征、正常文本特征和异常文本特征进行特征交互,得到异常分数图;基于异常分数的最大值、全局特征、正常文本特征和异常文本特征判断待检测样本图像中是否存在异常。本发明可以在无需样本图像中的物品类别先验数据的情况下有效完成零样本异常检测任务。
-
公开(公告)号:CN116758507B
公开(公告)日:2023-12-19
申请号:CN202310806039.1
申请日:2023-07-03
Applicant: 中铁建设集团有限公司 , 中国科学院自动化研究所
IPC: G06V20/56 , G06N3/0464 , G06N3/08 , G06T3/40 , G06T7/66 , G06T7/70 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G01N21/88 , G01N33/42
Abstract: 本发明涉及基于病害图像采集、分割的道面质量分析方法、装置及程序,属于计算机视觉技术领域。包括以下步骤:汽车启动;汽车车轮带动轮速编码器,触发工业相机采集路面图像数据,同时,卫星定位导航系统获取汽车所在经纬度定位信息,进而将路面图像数据与定位信息进行一一对应;车内工控机使用路面病害分割模型大型卷积U型网络结构对路面图像进行路面病害实时检测;使用三阶段训练方式进行路面病害分割模型的训练;使用重参数化技术对大型卷积核U型网络结构进行部署和推理,得到整体道面缺陷检测结果;根据检测结果计算道面状况指数PCI;自动生成道面分析报告,提供道面维修建议。本发(56)对比文件WO 2022227405 A1,2022.11.03孙玉龙等.基于大型卷积核模型和自监督预训练的路面质量分析方法《.无线电工程》.2023,第53卷(第3期),第527-533页.
-
公开(公告)号:CN112801238B
公开(公告)日:2021-07-27
申请号:CN202110403926.5
申请日:2021-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
-
-
-
-
-
-
-
-
-