-
公开(公告)号:CN118096944B
公开(公告)日:2024-07-23
申请号:CN202410495172.4
申请日:2024-04-24
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/60 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及计算机视觉技术领域,提供一种服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,构建方法包括:确定初始模型、原始样本图像和引导提示,引导提示表征各类别服饰的服饰特征;基于原始样本图像包含的服饰类别,对原始样本图像进行服饰特征去除,得到无服饰特征图;基于无服饰特征图和引导提示,对初始模型进行参数迭代,得到服饰编辑模型,服饰编辑模型用于对待编辑图像中各类服饰进行编辑。本发明提供的服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,能够针对人物图像中各种类别的服饰进行编辑,从而提高用户体验感和满意度。
-
公开(公告)号:CN118314417A
公开(公告)日:2024-07-09
申请号:CN202410388628.7
申请日:2024-04-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/762 , G06V10/82 , G06V10/86 , G06N3/0895 , G06N5/04
Abstract: 本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。本发明通过构建多视图超图,并根据多视图超图进行基于标签传播算法的关系一致性推理,能够有效融合来自多个视图的样本关系,使多个视图的信息互补,能够挖掘出多视角样本关系中的一致性,实现基于多视角训练弱监督跨模态模型,提高模型的鲁棒性,从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。
-
公开(公告)号:CN117893881A
公开(公告)日:2024-04-16
申请号:CN202311715547.5
申请日:2023-12-13
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V10/94 , G06N3/063 , G06N3/0455
Abstract: 本发明提供一种视觉Transformer推理优化方法及装置,该方法包括:将视觉Transformer中多头自注意力机制的第一权重矩阵划分为多个第一权重子矩阵;使用网络处理器中的矩阵计算单元依次基于各第一权重子矩阵计算图像的特征矩阵,特征矩阵包括Q矩阵、K矩阵和V矩阵,并将Q矩阵和K矩阵进行相乘得到QK矩阵;在矩阵计算单元每次计算特征矩阵和QK矩阵的同时,使用网络处理器中的向量计算单元对矩阵计算单元已计算的QK矩阵进行softmax计算,以供矩阵计算单元将softmax的计算结果与V矩阵进行相乘得到最终结果。本发明提升视觉Transformer的推理速度。
-
公开(公告)号:CN117173530B
公开(公告)日:2024-02-13
申请号:CN202311447067.5
申请日:2023-11-02
Applicant: 中国科学院自动化研究所
IPC: G06V10/80 , G06N3/0464 , G06V10/22 , G06V10/20 , G06V10/26 , G06V10/774 , G06V10/82
Abstract: 本发明提供一种目标异常检测方法及装置,属于计算机视觉技术领域。方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。本发明提高异常检测的准确性,并可通过提问获取丰富的异常信息。
-
公开(公告)号:CN117423108A
公开(公告)日:2024-01-19
申请号:CN202311273241.9
申请日:2023-09-28
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V20/70 , G06V10/40 , G06V10/80 , G06V10/82 , G06F18/25 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0455
Abstract: 本发明提供一种指令微调多模态大模型的图像细粒度描述方法及系统,涉及计算机技术领域,方法包括:获取目标图像对应的第一向量序列,目标图像对应的第一向量序列是通过对目标图像对应的第二向量序列进行编码后得到的,目标图像对应的第二向量序列是根据从所述目标图像中提取到的高级语义信息得到的;根据第一向量序列和第一提示模板,获取目标图像的细粒度描述文本,第一提示模板用于提供对目标图像进行细粒度描述所需的指令信息。本发明能够基于少量对图像进行细粒度描述所需的指令信息及承载图像的高级语义信息的向量序列,精准地识别和描述图像中重要目标的属性和特征,实现对图像的细粒度描述,提供更丰富及更具体的图像信息。
-
公开(公告)号:CN117422037A
公开(公告)日:2024-01-19
申请号:CN202311134048.7
申请日:2023-09-04
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06F30/392 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及模拟芯片设计技术领域,提供一种模拟芯片自动化布局模型训练方法及自动化布局方法,该训练方法同步对各样本布局智能体对应的策略网络进行训练,可以实现模拟芯片自动化布局模型的中心化训练,提升强化学习收敛效率和稳定性。该训练方法可以得到配置于各目标布局智能体内的模拟芯片自动化布局模型,实现去中心化布局决策,可以提升后续模拟芯片布局效率及布局效果,能够在不需要大量的布局数据的前提下,在秒级的时间内,得到一个性能与人工布局性能相当的布局结果,从而实现自动化的布局,进而有助于后续模拟芯片布线,为模拟芯片的快速生产及批量化应用提供了便利。
-
公开(公告)号:CN116959487A
公开(公告)日:2023-10-27
申请号:CN202310931489.3
申请日:2023-07-25
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明公开了一种基于说话人特征的鉴伪模型训练方法,包括以下步骤,S1、提取输入音频中的第一特征与第二特征;S2、将第一特征输入说话人特征提取网络,得到说话人特征;将第二特征输入鉴伪特征提取网络,得到鉴伪特征;S3、将说话人特征和鉴伪特征进行概率加权得到融合特征;S4、将融合特征输入分类器以得到输入音频的真伪结果;S5、建立损失函数,重复步骤S1~S4,以对鉴伪模型进行迭代训练;并且在训练过程中冻结说话人提取网络的所有权重,而仅更新鉴伪特征提取网络的权重。该方法生成的鉴伪模型具有良好的鲁棒性和泛化性,且标注成本低。
-
公开(公告)号:CN116403077B
公开(公告)日:2023-08-15
申请号:CN202310666476.8
申请日:2023-06-07
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/74 , G06V10/40 , G06V10/82 , G06F18/2433
Abstract: 本发明涉及计算机视觉和模式识别技术领域,提供一种异常检测模型训练方法、异常检测方法、装置及电子设备,该方法获取目标样本的异常图像样本的异常子块、正常图像样本的正常子块和所述正常图像样本对应的增强图像样本的增强子块;基于初始检测模型,分别对异常子块、正常子块和增强子块依次进行深度特征提取和语义特征提取,得到异常语义特征、正常深度特征、正常语义特征和增强语义特征;基于异常语义特征与正常语义特征之间的语义特征相似度,计算对比损失,基于正常深度特征、正常语义特征和增强语义特征,计算一致性增强损失;基于对比损失和一致性增强损失,对初始检测模型进行交替迭代训练,得到异常检测模型,可以提高模型的检测性能。
-
公开(公告)号:CN116071238A
公开(公告)日:2023-05-05
申请号:CN202310201764.6
申请日:2023-03-06
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T3/40 , G06T7/11 , G06N3/0464 , G06N3/08 , G06V10/764
Abstract: 本发明提供一种图像超分处理方法、装置、电子设备及存储介质,涉及图像处理技术领域,该方法包括:将待处理图像输入改进的分类超分ClassSR网络模型,得到不确定度响应图,基于不确定度响应图,更新改进的分类超分ClassSR网络模型的超分分支网络倒数第二层的特征图;基于更新后的超分分支网络倒数第二层的特征图,得到待处理图像的超分重建图像,使得图像超分更加精细、合理、高效,提升了超分网络的速度和精度。
-
公开(公告)号:CN115953819A
公开(公告)日:2023-04-11
申请号:CN202211702258.7
申请日:2022-12-28
Applicant: 中国科学院自动化研究所
IPC: G06V40/16
Abstract: 本发明提供一种人脸识别模型的训练方法、装置、设备和存储介质,涉及图像处理技术领域,该方法包括:获取多张第一人脸样本图像;提取每张第一人脸样本图像的图像特征,并基于所述每张第一人脸样本图像的图像特征,确定每张第一人脸样本图像的质量分数;基于每张所述第一人脸样本图像的标签信息和所述质量分数,对初始人脸识别模型进行训练,得到人脸识别模型,所述标签信息用于表征所述第一人脸样本图像对应的用户信息。本发明提供的人脸识别模型的训练方法、装置、设备和存储介质可以提高人脸识别模型训练的准确度,得到更加准确的人脸识别模型,从而提高了人脸识别的准确性。
-
-
-
-
-
-
-
-
-