-
公开(公告)号:CN119692463A
公开(公告)日:2025-03-25
申请号:CN202411652971.4
申请日:2024-11-19
Applicant: 中国科学院自动化研究所
IPC: G06N5/04
Abstract: 本发明提供了一种重建引导的多模态大模型训练方法、装置、应用、设备、介质及程序产品。该方法包括:对样本图像进行重建,得到重建图像特征;将针对样本图像的样本视觉特征和针对样本文本的样本文本特征输入多模态大模型,输出预测视觉特征和预测文本特征,其中,样本文本与样本图像关联;基于重建图像特征和预测视觉特征,确定重建引导的视觉损失值;基于预测文本特征和样本文本特征,确定文本损失值;以及基于重建引导的视觉损失值和文本损失值,对多模态大模型进行训练,得到训练好的多模态大模型。
-
公开(公告)号:CN119166236A
公开(公告)日:2024-12-20
申请号:CN202411230607.9
申请日:2024-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及计算机领域和人工智能领域,提供一种虚拟场景生成方法及系统,所述虚拟场景生成方法包括:规划智能体接收用户输入的场景生成指令;所述规划智能体根据预设资源库中的插件注释信息,从所述预设资源库中选择用于生成所述目标场景的程序化内容生成插件,生成用于生成所述目标场景的任务计划;执行智能体利用从所述预设资源库中选择的程序化内容生成插件,执行所述任务计划,以生成所述目标场景。本公开可以解决难以提升生成虚拟场景的工作效率的问题,可以自动化地生成目标场景,而无需用户深度参与PCG插件的选择、应用、调整等场景生成过程,提升工作效率。
-
公开(公告)号:CN113569852B
公开(公告)日:2024-11-12
申请号:CN202110643779.9
申请日:2021-06-09
Applicant: 中国科学院自动化研究所
IPC: G06V10/82 , G06V10/764 , G06V10/26 , G06V20/70 , G06V10/77 , G06N3/04 , G06N3/0895
Abstract: 本申请实施例公开了一种语义分割模型的训练方法、装置、电子设备及存储介质,方法包括:在语义分割结果中的稀疏点标注位置,基于语义分割模型的第一损失函数,第一次更新所述语义分割模型的模型参数;基于语义分割结果以及图像对应的稀疏点标签,得到图像对应的稠密像素级伪标签,并基于稠密像素级伪标签和语义分割模型的第二损失函数,第二次更新语义分割模型的模型参数;基于图像的特征数据、稠密像素级伪标签和语义分割模型的第三损失函数,第三次更新语义分割模型的模型参数。本申请实施例充分利用稀疏点标注中所隐含的信息来训练深度模型,从而在尽量小的标注代价下,取得较好的弱监督模型性能。
-
公开(公告)号:CN118887644A
公开(公告)日:2024-11-01
申请号:CN202410801779.0
申请日:2024-06-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种视觉SLAM方法、装置、系统、电子设备及存储介质,该方法包括:识别目标移动体当前帧的原始全景环视鸟瞰图像中的感知目标,获得目标移动体当前帧的目标全景环视鸟瞰图像,对目标全景环视鸟瞰图像进行语义匹配和非刚性拟合,获得目标全景环视鸟瞰图像中识别到的感知目标的矢量化实例,基于目标移动体当前帧的原始位姿数据对矢量化实例进行位姿修正后,基于位姿修正后的矢量化实例判断当前帧是否为关键帧,在当前帧为关键帧的情况下,基于上述矢量化实例对目标移动体的全局矢量地图进行更新。本发明提供的视觉SLAM方法、装置、系统、电子设备及存储介质,能提高视觉SLAM方法的在自主泊车场景下的精度稳定性。
-
公开(公告)号:CN113792751B
公开(公告)日:2024-06-04
申请号:CN202110860109.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06F30/27
Abstract: 本发明提供一种跨域行为识别方法、装置、设备及可读存储介质,涉及视觉识别技术领域,该方法包括以下步骤;将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果;其中,行为识别模型通过对融合训练集和源域训练集训练得到,融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与源域训练集进行融合得到,目标域融合数据为根据预测结果和预测结果对应的置信度得分从目标域训练集选取得到,预测结果和置信度得分由将目标域训练集输入至预训练行为识别模型中得到,预训练行为识别模型通过对源域训练集进行训练得到,本发明能兼容域之间的差异,具有通用性并且兼顾了精确度的要求。
-
公开(公告)号:CN113627433B
公开(公告)日:2024-04-09
申请号:CN202110680850.0
申请日:2021-06-18
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供的一种基于数据扰动的跨域自适应语义分割方法及装置,该方法包括,获取待处理数据以及添加数据扰动后的语义分割特征;基于所述待处理数据以及所述语义分割特征确定损失函数;基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型,通过对目标域中大量无标签数据,本发明对这部分数据随机加入扰动,并保证经过扰动处理的图像能够保持语义的一致性,从数据扰动和跨域原型分类器两个角度解决了源域和目标域之间的领域不一致问题,并且针对在现实应用中更具实际应用价值的少量监督问题做了针对性的设计,并在基于对抗的学习框架下,取得了优秀的分割性能,将现有的标注样本的知识迁移到新数据模型中。
-
公开(公告)号:CN117593419A
公开(公告)日:2024-02-23
申请号:CN202311352266.8
申请日:2023-10-18
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种文本生成图像的方法及装置,该方法包括:确定输入的第一文本描述中的各概念在文本生成图像模型生成的图像中对应的预测位置框,所述文本生成图像模型根据第二噪声图像、第二文本描述和输入的参考图像,基于文本反转方法训练得到,所述第一文本描述和所述第二文本描述中包括目标概念,所述参考图像包括所述目标概念的对象;将第一噪声图像和第一文本描述输入文本生成图像模型,根据文本生成图像模型对第一噪声图像每次去噪后的图像确定各概念的注意力图,根据各概念的注意力图在各概念对应的预测位置框上的聚集损失对去噪后的图像进行再次去噪,直到满足预设条件。本发明实现生成图像中不丢失其他概念的对象。
-
公开(公告)号:CN116977635A
公开(公告)日:2023-10-31
申请号:CN202310890134.4
申请日:2023-07-19
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/764 , G06V10/82 , G06N3/096 , G06N3/09
Abstract: 本发明涉及计算机视觉技术领域,提供一种类别增量语义分割学习方法及语义分割方法,通过将当前阶段的图像样本输入至当前阶段的主网络模型,得到第一结果,通过图像样本中的类别标签与对第一结果进行划分得到的第三结果,采用二分类约束方法计算增量学习损失,通过将当前阶段的图像样本输入至前一阶段的语义分割模型,得到第二结果,并通过第二结果与对第一结果进行划分得到的第四结果计算知识蒸馏损失。通过采用二分类约束方法,可以对增量学习过程中保持前阶段所学习旧知识和学习现阶段新知识两个目标进行解耦,从而使第三结果的有监督学习以及对第四结果的知识蒸馏这两个过程的独立进行,加强语义分割模型最终对所有已知类别的语义分割效果。
-
公开(公告)号:CN116704217A
公开(公告)日:2023-09-05
申请号:CN202310370230.6
申请日:2023-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例提供了一种基于困难样本挖掘的模型训练方法、设备和存储介质,涉及人工智能技术领域,该方法包括:获取当前迭代过程中基于第一图像对第一模型训练得到的模型参数,更新第二模型的模型参数;基于更新后的第二模型,确定原始图像中各图像块对应的预测重建损失;基于预测重建损失及预设困难样本需求,生成目标掩码策略;基于目标掩码策略,更新第一图像,用于下次迭代过程中对第一模型进行训练,直至第一模型的损失函数达到收敛或迭代过程的次数达到预设的迭代总次数。本发明基于第一模型的迭代训练过程,不断更新掩码策略,帮助模型学习到更具有迁移性的特征表示,提高第一模型的表征能力,避免掩码学习对人工预定义的掩码规则的依赖。
-
公开(公告)号:CN114663536B
公开(公告)日:2022-12-06
申请号:CN202210118720.2
申请日:2022-02-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像压缩方法及装置,所述方法包括:获取待压缩图像;基于预处理规则将所述待压缩图像划分为多个图像块,并将所有所述待压缩图像块输入到预存的目标编码器中,以获取第一隐变量;将所述第一隐变量输入到预存的熵模型中,以获取第二隐变量;将所述第二隐变量输入到预存的目标解码器中,以获取压缩后的图像块,并根据所述压缩后的图像块获取压缩后的图像;本发明所述方法在图像压缩任务中引入Transformer模块并采用对称处理架构进行图像的编码和解码,提高了图像压缩效率。
-
-
-
-
-
-
-
-
-