-
公开(公告)号:CN118379563B
公开(公告)日:2024-09-10
申请号:CN202410805822.0
申请日:2024-06-21
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06V10/764 , G01C21/20 , G01C21/30 , G01C21/32 , G01C21/36 , G01C21/00 , G06V10/774 , G06V10/82 , G06V30/19 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及视觉导航技术领域,提供一种导航模型训练方法、装置、电子设备及存储介质,该方法包括:将各样本图文对中的样本图像和样本文本信息分别输入导航模型中的视觉编码器和文本编码器,以提取样本图像特征和样本文本特征;将各样本图文对对应的样本图像特征和样本文本特征代入对比学习损失函数,在对比学习损失函数收敛时,完成对视觉编码器和文本编码器的预训练;基于预训练得到的视觉编码器和文本编码器训练所述导航模型。本发明训练方法训练得到的导航模型能够精准地判断当前视角下的图像是否符合文本信息描述的内容,从而准确地预测机器人下一步的航路点。
-
公开(公告)号:CN118606712A
公开(公告)日:2024-09-06
申请号:CN202410793274.4
申请日:2024-06-19
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/22
Abstract: 本申请提供一种多模态数据集构建方法、装置及存储介质。首先清洗出高质量图片;然后对高质量的图片生成图片的描述;评估生成的描述与图片的相似度,如果相似度较低,重新生成图片的描述,直到生成的描述与图片的相似度达到规定的得分;使用音频模型,把生成的图片描述转换成语音,通过评分模型打分,得到满足条件的音频;得到图‑文‑音三模态高质量数据集。通过本发明的获取数据集的方法,获取了高质量的图文音数据集,可以用来提高模型的泛化能力。
-
公开(公告)号:CN117423108B
公开(公告)日:2024-05-24
申请号:CN202311273241.9
申请日:2023-09-28
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V20/70 , G06V10/40 , G06V10/80 , G06V10/82 , G06F18/25 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0455
Abstract: 本发明提供一种指令微调多模态大模型的图像细粒度描述方法及系统,涉及计算机技术领域,方法包括:获取目标图像对应的第一向量序列,目标图像对应的第一向量序列是通过对目标图像对应的第二向量序列进行编码后得到的,目标图像对应的第二向量序列是根据从所述目标图像中提取到的高级语义信息得到的;根据第一向量序列和第一提示模板,获取目标图像的细粒度描述文本,第一提示模板用于提供对目标图像进行细粒度描述所需的指令信息。本发明能够基于少量对图像进行细粒度描述所需的指令信息及承载图像的高级语义信息的向量序列,精准地识别和描述图像中重要目标的属性和特征,实现对图像的细粒度描述,提供更丰富及更具体的图像信息。
-
公开(公告)号:CN117853382A
公开(公告)日:2024-04-09
申请号:CN202410242270.7
申请日:2024-03-04
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本申请提供一种基于稀疏标记物的图像矫正方法、装置及存储介质,涉及计算机视觉技术领域。该方法包括:获取待处理图像中的标记物的位置信息;基于预定义几何约束和所述标记物的位置信息获取所述标记物的位置偏移量;基于所述标记物的位置偏移量对所述待处理图像进行正射矫正。本申请提供的基于稀疏标记物的图像矫正方法、装置及存储介质,利用了标记物的几何特点来获取对应标记物的位置偏移量,使基于随意摆放的小型标记物便能实现图像矫正,增强了操作的便利性和灵活性,提升了用户体验。
-
公开(公告)号:CN117575746A
公开(公告)日:2024-02-20
申请号:CN202410068912.6
申请日:2024-01-17
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06Q30/0601 , G06V10/80 , G06V10/82 , G06V10/30 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种虚拟试穿方法、装置、电子设备及存储介质,属于图像处理技术领域,所述方法包括:获取待试穿衣物图像和人物图像;将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型,得到所述虚拟试穿模型输出的虚拟试穿图像;所述虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的,所述伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及所述人物图像数据集中各人物图像的解析数据进行处理得到的。本发明可以实现无解析器形式的虚拟试穿图像生成,有效提高了虚拟试穿图像的生成效率,提升了虚拟试穿效果。
-
公开(公告)号:CN117575746B
公开(公告)日:2024-04-16
申请号:CN202410068912.6
申请日:2024-01-17
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06Q30/0601 , G06V10/80 , G06V10/82 , G06V10/30 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种虚拟试穿方法、装置、电子设备及存储介质,属于图像处理技术领域,所述方法包括:获取待试穿衣物图像和人物图像;将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型,得到所述虚拟试穿模型输出的虚拟试穿图像;所述虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的,所述伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及所述人物图像数据集中各人物图像的解析数据进行处理得到的。本发明可以实现无解析器形式的虚拟试穿图像生成,有效提高了虚拟试穿图像的生成效率,提升了虚拟试穿效果。
-
公开(公告)号:CN117173403A
公开(公告)日:2023-12-05
申请号:CN202310907245.1
申请日:2023-07-21
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/766 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/08 , G06T7/62
Abstract: 本发明公开了一种基于多边形回归的物体分割方法,该方法基于一物体分割模型实现,所述物体分割模型包括用于进行特征提取的深度模型与进行多边形回归的回归层;该方法还建立了一种损失函数,利用标注图像中多边形与物体分割模型输出的预测图像中多边形的距离和周长差进行约束。该方法相较于传统的基于Mask的物体分割方法更为精细准确,并且分割结果所需的存储量更小。
-
公开(公告)号:CN119761306A
公开(公告)日:2025-04-04
申请号:CN202411564900.9
申请日:2024-11-05
Applicant: 中国科学院自动化研究所
IPC: G06F40/126 , G06N3/0455
Abstract: 本发明提供一种基于大语言模型上下文压缩的长文本生成方法,方法包括:获取待压缩的上下文文本以及提示词文本,并进行基于压缩的编码处理,得到对应的压缩向量以及提示词嵌入向量;将压缩向量与提示词嵌入向量进行拼接,并对拼接得到的融合特征进行基于自回归的解码处理,得到对应的多个token标识符;根据预设的词表,将token标识符逐一地映射为文本字符串,并将文本字符串组成为压缩上下文文本。通过本申请,将大语言模型处理的上下文长文本进行压缩,解决现有技术中语义模型处理长上下文文本时需要消耗巨大的模型计算资源和数据存储资源的技术问题。
-
公开(公告)号:CN118096944A
公开(公告)日:2024-05-28
申请号:CN202410495172.4
申请日:2024-04-24
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/60 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及计算机视觉技术领域,提供一种服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,构建方法包括:确定初始模型、原始样本图像和引导提示,引导提示表征各类别服饰的服饰特征;基于原始样本图像包含的服饰类别,对原始样本图像进行服饰特征去除,得到无服饰特征图;基于无服饰特征图和引导提示,对初始模型进行参数迭代,得到服饰编辑模型,服饰编辑模型用于对待编辑图像中各类服饰进行编辑。本发明提供的服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,能够针对人物图像中各种类别的服饰进行编辑,从而提高用户体验感和满意度。
-
公开(公告)号:CN119942066A
公开(公告)日:2025-05-06
申请号:CN202411938991.8
申请日:2024-12-26
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06V10/25 , G06V10/44 , G06V10/77 , G06V10/80 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N5/04
Abstract: 本发明提供物体检测方法、模型训练方法、装置、设备及介质,物体检测包括待检测的图像输入到图像特征提取器;图像特征提取器提取的图像特征和高斯白噪声输入到扩散模型中;扩散模型输出隐向量,隐向量输入到自编码器的解码器中;解码器输出与隐向量相应的物体检测结果;物体检测模型训练包括自编码器训练和图像特征提取器与扩散模型联合训练。本发明的物体检测方法,将变长/无序/连续离散混杂的矩形框与类别信息变换为定长/有序/抗噪的隐向量;本发明所提供层次化的自编码器结构,在保持隐向量空间良好性质的同时,尽量压缩向量维度,提升了物体检测方法的速度和精度。
-
-
-
-
-
-
-
-
-