-
公开(公告)号:CN118314417B
公开(公告)日:2025-03-21
申请号:CN202410388628.7
申请日:2024-04-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/762 , G06V10/82 , G06V10/86 , G06N3/0895 , G06N5/04
Abstract: 本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。本发明通过构建多视图超图,并根据多视图超图进行基于标签传播算法的关系一致性推理,能够有效融合来自多个视图的样本关系,使多个视图的信息互补,能够挖掘出多视角样本关系中的一致性,实现基于多视角训练弱监督跨模态模型,提高模型的鲁棒性,从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。
-
公开(公告)号:CN119474895A
公开(公告)日:2025-02-18
申请号:CN202411150245.2
申请日:2024-08-21
Applicant: 中国科学院自动化研究所
IPC: G06F18/22 , G06F18/214 , G06F8/75 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种相似性检测方法、装置、设备及介质,包括:获取用于相似性检测的第一汇编代码和第二汇编代码;将所述第一汇编代码和所述第二汇编代码进行编码,得到所述第一汇编代码对应的第一向量和所述第二汇编代码对应的第二向量;将所述第一向量和所述第二向量输入相似性检测模型中,确定所述第一向量和所述第二向量的相似度。该方法用以解决相关技术中计算数据量较为庞大,存在数据丢失的状况,致使相似性检测需要消耗大量资源的同时相似性检测精度较低,进而导致检测的成本显著上升的问题,通过使用相似性检测模型来判断汇编代码之间的相似性,大幅降低了检测的时间和计算成本,且检测的精度显著提高。
-
公开(公告)号:CN114419374B
公开(公告)日:2025-01-10
申请号:CN202210067225.3
申请日:2022-01-20
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
IPC: G06V10/82 , G06V10/40 , G06V10/44 , G06V10/26 , G06V10/25 , G06V10/764 , G06V20/70 , G06N3/0464 , G06N3/045 , G06N3/088 , G06N3/0895
Abstract: 本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品,其中该方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。
-
公开(公告)号:CN119204161A
公开(公告)日:2024-12-27
申请号:CN202411182762.8
申请日:2024-08-27
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/0455 , G06N3/084
Abstract: 本发明提供一种基于注意力蒸馏的大模型连续微调方法及装置,方法包括:基于当前任务的训练样本和回放缓存,微调Transformer模型;其中包括:将当前任务的训练样本输入Transformer模型中计算自回归损失,以更新模型参数;将当前任务的回放缓存输入Transformer模型中计算回放损失、预测蒸馏损失和注意力蒸馏损失,以再次更新模型参数,得到更新后的Transformer模型;根据当前任务的训练样本,更新回放缓存,得到下一任务的回放缓存;基于下一任务的训练样本和下一任务的回放缓存,再次微调更新后的Transformer模型。通过上述方法,解决大模型训练过程中,需要借助大量的回放样本来缓解连续微调后大模型在旧任务上严重的性能下降的问题,避免了在模型训练过程需要存储大量的回放样本。
-
公开(公告)号:CN118656177B
公开(公告)日:2024-12-03
申请号:CN202411153824.2
申请日:2024-08-21
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明公开了一种基于GPU拓扑结构的容器调度方法、装置、介质及设备,其中的方法首先接收容器发起的虚拟GPU使用请求,并从集群中获取所有节点的虚拟GPU分配信息和物理GPU之间的拓扑信息;然后根据所述节点的虚拟GPU分配信息与所述虚拟GPU资源申请量之间的关系,筛选出空闲虚拟GPU资源能够满足虚拟GPU使用请求的节点,接着根据可调度节点中的物理GPU之间的拓扑信息筛选出目标计算节点;最后将目标容器绑定至所述目标计算节点,并将所述目标计算节点中的各个空闲虚拟GPU资源挂载至所述目标容器中。本发明可以实现更精准的分配资源,充分挥多卡GPU之间的数据交换性能,从而提升GPU的整体性能和使用率。
-
公开(公告)号:CN119046442A
公开(公告)日:2024-11-29
申请号:CN202411526272.5
申请日:2024-10-30
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F40/35 , G06N5/022 , G06F16/34
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
-
公开(公告)号:CN118737391A
公开(公告)日:2024-10-01
申请号:CN202410665668.1
申请日:2024-05-27
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种手术辅助方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:获取手术文本和手术图片;将手术文本输入至文本编码器获取文本令牌,并将手术图片输入至视觉编码器获取视觉令牌;将视觉令牌输入至路由投影器,获取由路由编码器输出的图片抽象特征;将图片抽象特征与所述文本令牌进行对齐拼接后生成的拼接特征向量输入至手术大语言模型,获取由手术大语言模型输出的手术辅助信息。本发明为了实现优越的手术多模态理解,引入路由投影器来投影来对齐手术图片与手术大语言模型,可以准确理解外科医生的意图,并根据需求完成一系列手术理解任务,从而在文本分析和视觉任务中取得突出的性能。
-
公开(公告)号:CN118378094B
公开(公告)日:2024-09-17
申请号:CN202410824680.2
申请日:2024-06-25
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06F18/214 , G06F30/36 , G06N3/0464 , G06N3/092
Abstract: 本发明提供一种芯片布局模型训练及运用方法、装置、电子设备及存储介质,属于人工智能技术领域,训练方法包括:按顺序控制智能体序列的每个智能体执行基于所有智能体在当前时刻的状态信息确定的预测动作并获取执行信息,遍历智能体序列后,根据所有执行信息计算策略网络和价值网络的损失函数值,以对芯片布局模型中策略网络和价值网络的结构参数进行更新。本发明在芯片布局模型仅设置一个策略网络和价值网络的情况下,按顺序控制智能体执行预测动作,在所有智能体均执行一次预测动作之后,依据每次执行预测动作获取的所有执行信息更新模型结构参数,使得训练完成的芯片布局模型能够适用于器件数量各不相同的芯片布局,提高了模型泛化性能。
-
公开(公告)号:CN118379375A
公开(公告)日:2024-07-23
申请号:CN202410378507.4
申请日:2024-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种掩码视频图像模型的快速训练方法,方法包括:获取样本图像对,样本图像对包含历史视频帧图像以及未来视频帧图像;基于未来视频帧图像中的各子区域,分别对未来视频帧图像进行掩码;基于初始掩码图像模型、将历史视频帧图像的历史图像特征作为键值对,将各掩码图像的掩码图像特征作为查询,预测得到各掩码图像对应的补全图像;基于各补全图像以及自洽机制,对初始掩码图像模型进行参数迭代得到掩码图像模型。本发明提供的方法,通过视频中的图像对参与模型训练,提升样本数据的利用率,通过自洽机制保证各未来帧的补全图像趋于一致,可以迅速收敛,同时使得模型充分学习样本数据各区域之间时间维度上的联系,以提升模型的训练效率。
-
公开(公告)号:CN118378094A
公开(公告)日:2024-07-23
申请号:CN202410824680.2
申请日:2024-06-25
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06F18/214 , G06F30/36 , G06N3/0464 , G06N3/092
Abstract: 本发明提供一种芯片布局模型训练及运用方法、装置、电子设备及存储介质,属于人工智能技术领域,训练方法包括:按顺序控制智能体序列的每个智能体执行基于所有智能体在当前时刻的状态信息确定的预测动作并获取执行信息,遍历智能体序列后,根据所有执行信息计算策略网络和价值网络的损失函数值,以对芯片布局模型中策略网络和价值网络的结构参数进行更新。本发明在芯片布局模型仅设置一个策略网络和价值网络的情况下,按顺序控制智能体执行预测动作,在所有智能体均执行一次预测动作之后,依据每次执行预测动作获取的所有执行信息更新模型结构参数,使得训练完成的芯片布局模型能够适用于器件数量各不相同的芯片布局,提高了模型泛化性能。
-
-
-
-
-
-
-
-
-