-
公开(公告)号:CN118823383A
公开(公告)日:2024-10-22
申请号:CN202410779961.0
申请日:2024-06-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于图像和文本双指代的高分辨率目标感知方法、装置,包括:获取待识别图像、文本提示词和指代图像,其中,所述文本提示词和所述指代图像用于对所述待识别图像进行目标指代;对所述待识别图像进行图像特征提取处理,得到待识别图像词向量;对所述指代图像进行视觉特征提取处理,得到指代图像词向量;对所述文本提示词进行分词化处理,得到文本词向量;基于所述待识别图像词向量、所述指代图像词向量和所述文本词向量进行预测处理,得到与所述指代图像和所述文本提示词对应的答案。对待识别图像中的物体从图像和文本的双重角度进行指代描述,使得对待处理图像中的目标感知更加精确,进而生成的答案准确率更高。
-
公开(公告)号:CN118820509A
公开(公告)日:2024-10-22
申请号:CN202411297843.2
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06N3/0455 , G06N3/0464 , G06V10/26 , G06V10/82
Abstract: 本发明提供一种图文信息处理方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取第一图文信息,所述第一图文信息包括第一文本和第一图像;为所述第一图像添加指示令牌,得到第二图文信息,所述指示令牌包括图像开始令牌和图像结束令牌,所述图像开始令牌位于所述第一图像之前,所述图像结束令牌位于所述第一图像之后;确定所述第一文本对应的文本特征,确定所述第一图像对应的图像特征,确定所述指示令牌对应的令牌特征,并根据所述文本特征、所述图像特征以及所述令牌特征确定输入序列;将所述输入序列输入大语言模型,得到对应的图文理解定位信息。
-
公开(公告)号:CN118210818B
公开(公告)日:2024-08-20
申请号:CN202410606447.7
申请日:2024-05-16
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06F16/242 , G06F16/22 , G06N20/00
Abstract: 本发明涉及自然语言处理技术领域,提供一种SQL语句生成方法、装置、电子设备和存储介质,其中方法包括:获取自然语言形式的待查询语句;将待查询语句输入至生成模型中,得到目标SQL语句;生成模型是以表名预测任务、列名预测任务和列值预测任务为训练任务,基于样本数据库中的样本数据表名、样本数据表中的样本数据列名、以及样本数据列中的样本数据列值训练得到,表名预测任务用于预测样本数据库中的数据表名,列名预测任务用于预测样本数据表中的数据列名,列值预测任务用于预测样本数据列中的数据列值。本发明能够更好地理解和处理复杂的查询需求,更准确地生成与目标查询相匹配的SQL语句,提高了生成SQL语句的准确性和可靠性。
-
公开(公告)号:CN118155638B
公开(公告)日:2024-07-19
申请号:CN202410552064.6
申请日:2024-05-07
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明提供一种基于大语言模型的语音生成和理解系统、方法和电子设备,属于语音理解和语音生成技术领域,该系统具备语音识别、语音描述,语音分类、语音增强、语音合成和音乐合成功能,该系统包括:输入模块,用于输入文本信息和/或语音信息;编码模块,用于获取所述文本信息和/或语音信息中的特征信息,还用于将所述文本信息和语音信息中的特征信息转换到统一的特征空间中;预测模块,用于将所述文本信息和/或语音信息中的特征信息通过特定格式输入大语言模型,获得所述大语言模型输出的文本令牌和/或语音令牌;解码模块,用于将所述文本令牌解码成文字和/或将所述语音令牌解码成语音。可以节省计算资源且提高语音任务效率。
-
公开(公告)号:CN117575746B
公开(公告)日:2024-04-16
申请号:CN202410068912.6
申请日:2024-01-17
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06Q30/0601 , G06V10/80 , G06V10/82 , G06V10/30 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种虚拟试穿方法、装置、电子设备及存储介质,属于图像处理技术领域,所述方法包括:获取待试穿衣物图像和人物图像;将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型,得到所述虚拟试穿模型输出的虚拟试穿图像;所述虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的,所述伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及所述人物图像数据集中各人物图像的解析数据进行处理得到的。本发明可以实现无解析器形式的虚拟试穿图像生成,有效提高了虚拟试穿图像的生成效率,提升了虚拟试穿效果。
-
公开(公告)号:CN117173403A
公开(公告)日:2023-12-05
申请号:CN202310907245.1
申请日:2023-07-21
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/766 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/08 , G06T7/62
Abstract: 本发明公开了一种基于多边形回归的物体分割方法,该方法基于一物体分割模型实现,所述物体分割模型包括用于进行特征提取的深度模型与进行多边形回归的回归层;该方法还建立了一种损失函数,利用标注图像中多边形与物体分割模型输出的预测图像中多边形的距离和周长差进行约束。该方法相较于传统的基于Mask的物体分割方法更为精细准确,并且分割结果所需的存储量更小。
-
公开(公告)号:CN117115315A
公开(公告)日:2023-11-24
申请号:CN202310856520.1
申请日:2023-07-12
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T13/40 , G06T7/40 , G06T7/246 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本申请提供一种语音驱动唇形生成方法、装置及存储介质。该方法包括:将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。本申请提供的语音驱动唇形生成方法、装置及存储介质,通过将运动信息从所述初始纹理特征中解耦,采用解耦后得到的目标纹理特征作为唇形生成的参考先验,避免了运动信息对生成结果的影响,提升生成唇形的准确性和鲁棒性、提高唇形同步的准确率。
-
公开(公告)号:CN116912616A
公开(公告)日:2023-10-20
申请号:CN202310673660.5
申请日:2023-06-07
Applicant: 中国科学院自动化研究所 , 百度在线网络技术(北京)有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06F40/126
Abstract: 本发明提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
-
公开(公告)号:CN115953819B
公开(公告)日:2023-08-15
申请号:CN202211702258.7
申请日:2022-12-28
Applicant: 中国科学院自动化研究所
IPC: G06V40/16
Abstract: 本发明提供一种人脸识别模型的训练方法、装置、设备和存储介质,涉及图像处理技术领域,该方法包括:获取多张第一人脸样本图像;提取每张第一人脸样本图像的图像特征,并基于所述每张第一人脸样本图像的图像特征,确定每张第一人脸样本图像的质量分数;基于每张所述第一人脸样本图像的标签信息和所述质量分数,对初始人脸识别模型进行训练,得到人脸识别模型,所述标签信息用于表征所述第一人脸样本图像对应的用户信息。本发明提供的人脸识别模型的训练方法、装置、设备和存储介质可以提高人脸识别模型训练的准确度,得到更加准确的人脸识别模型,从而提高了人脸识别的准确性。
-
公开(公告)号:CN115294350B
公开(公告)日:2023-08-04
申请号:CN202210754184.5
申请日:2022-06-28
Applicant: 中国科学院自动化研究所
IPC: G06V10/44 , G06V10/764
Abstract: 本发明提供一种基于粗标签辅助的半监督细粒度图像识别方法和设备,属于计算机视觉和模式识别技术领域,该方法包括:将待识别图像利用第一特征提取模型进行特征提取,得到第一图像特征;将第一图像特征利用细粒度层级分类器进行处理,得到待识别图像的分类结果;其中,第一特征提取模型为基于粗粒度层级的交叉熵损失、细粒度层级的交叉熵损失、目标损失优化得到的;目标损失为基于样本与样本之间关系级别的第一损失和样本与类中心之间的关系级别的第二损失得到的。上述方案的准确性较高。
-
-
-
-
-
-
-
-
-