-
公开(公告)号:CN117690415A
公开(公告)日:2024-03-12
申请号:CN202410143148.4
申请日:2024-02-01
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,属于信息处理技术领域,所述方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
-
公开(公告)号:CN116740414B
公开(公告)日:2024-03-01
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN117422041A
公开(公告)日:2024-01-19
申请号:CN202311132966.6
申请日:2023-09-04
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06F30/394 , G06N3/126
Abstract: 本发明涉及模拟芯片设计技术领域,提供一种模拟芯片自动化布线模型训练方法及自动化布线方法,该训练方法中将目标遗传算法得到的布线路径信息作为深度Q网络的回放经验,可以提高深度Q网络的预测能力。而且,将整个模拟芯片的网表信息分解成各个子网络信息,并利用各样本电路图子网络训练得到模拟芯片自动化布线模型,如此可以缩小目标遗传算法以及深度Q网络的搜索范围,可以进一步提高深度Q网络的训练效率。该训练方法得到的模拟芯片自动化布线模型,可以适用于电路图子网络范围内的布线,搜索范围小,可以快速得到最优布线方案,可以提高布线效率,为模拟芯片的快速生产及批量化应用提供了便利。
-
公开(公告)号:CN116092164B
公开(公告)日:2023-12-26
申请号:CN202310109275.8
申请日:2023-02-01
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种人脸图像重演方法、装置、电子设备及存储介质,涉及图像处理技术领域,其中方法包括:对源图像和驱动图像进行人脸关键点检测以及背景预测,确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵;基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换,确定密集光流和多尺度掩码图像;其中,多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分;基于密集光流和多尺度掩码图像进行人脸重演,确定源图像和驱动图像对应的重建图像;人脸重演包括扭曲重建和上下文修复。本发明实现了源图像和驱动图像之间存在较大差异时也能够精确人脸重演的目的,大幅提高了人脸重演的精准性和适用性。
-
公开(公告)号:CN117036519A
公开(公告)日:2023-11-10
申请号:CN202310936436.0
申请日:2023-07-26
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/00 , G06T11/40 , G06F16/535 , G06F16/532 , G06N20/00 , G06N3/092
Abstract: 本发明公开了一种文生图多模态主动交互方法,该方法采用文生图的图文对构建方法所生成的名词列表,并补充更新所述的文生图的图文对构建方法所需的关键词库;该方法首先对反馈模式开关状态判断,当反馈模式关闭时,文生图模型直接根据用户输入的提示说法生成图片;当反馈模式开启时,文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面,用户通过反馈交互界面输入反馈信息,文生图模型根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。
-
公开(公告)号:CN116740414A
公开(公告)日:2023-09-12
申请号:CN202310542913.5
申请日:2023-05-15
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/82 , G06N3/045
Abstract: 本发明提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。
-
公开(公告)号:CN116089652A
公开(公告)日:2023-05-09
申请号:CN202310364413.7
申请日:2023-04-07
Applicant: 中国科学院自动化研究所
IPC: G06F16/78 , G06F18/214
Abstract: 本发明提供一种视觉检索模型的无监督训练方法、装置和电子设备,属于计算机视觉技术领域。该方法包括:将图像样本集输入视觉检索模型进行特征提取处理,获得目标特征信息;基于目标特征信息,为图像样本集中的各图像样本生成初始伪标签,并以各非离群图像样本为节点构建第一KNN图;以第一KNN图和目标特征信息为训练数据,以初始伪标签为监督数据对伪标签校正模型进行训练获得目标伪标签校正模型;基于目标特征信息,以图像样本集中的各图像样本为节点构建第二KNN图;将第二KNN图输入目标伪标签校正模型,获得校正伪标签;以图像样本集为训练数据,以校正伪标签为监督数据对视觉检索模型进行训练。该方法能提高视觉检索模型的性能。
-
公开(公告)号:CN114862699B
公开(公告)日:2022-12-30
申请号:CN202210395733.4
申请日:2022-04-14
Applicant: 中国科学院自动化研究所
IPC: G06T5/00 , G06V10/774 , G06V40/16
Abstract: 本发明提供一种基于生成对抗网络的人脸修复方法、装置及存储介质,该方法包括:获取待修复的人脸图像,将待修复的人脸图像输入图像生成器,得到待修复的人脸图像所对应的人脸修复图像,其中,图像生成器用于基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像,图像生成器是基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的,图像生成器与图像判别器构成生成对抗网络,图像判别器用于区分图像生成器生成的图像和原始样本人脸图像。通过本发明提供的基于生成对抗网络的人脸修复方法、装置及存储介质,可以实现修复严重降质人脸图像,得到清晰、细节丰富,自然的高质量人脸图像。
-
公开(公告)号:CN115082966B
公开(公告)日:2022-12-06
申请号:CN202210866105.X
申请日:2022-07-22
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/774
Abstract: 本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备,应用于图像处理领域,该方法包括:将第一样本图像划分为多个第一图像块,将多个第一图像块划分为多个第一图像块组;分别对各第一图像块组中的部分第一图像块进行掩码处理,得到各第一图像块组中的遮挡图像块和未遮挡图像块;根据每个第一图像块组中的遮挡图像块和未遮挡图像块,对初始行人重识别模型中的编码器进行预训练,得到预训练完成的编码器;根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示,微调初始行人重识别模型的网络参数,得到行人重识别模型。本发明可以提高预训练模型的准确度,从而使得行人重识别模型的精度较高,提高了行人重识别准确度。
-
公开(公告)号:CN115082966A
公开(公告)日:2022-09-20
申请号:CN202210866105.X
申请日:2022-07-22
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/774
Abstract: 本发明提供一种行人重识别模型训练方法、行人重识别方法、装置和设备,应用于图像处理领域,该方法包括:将第一样本图像划分为多个第一图像块,将多个第一图像块划分为多个第一图像块组;分别对各第一图像块组中的部分第一图像块进行掩码处理,得到各第一图像块组中的遮挡图像块和未遮挡图像块;根据每个第一图像块组中的遮挡图像块和未遮挡图像块,对初始行人重识别模型中的编码器进行预训练,得到预训练完成的编码器;根据预训练完成的编码器对第二样本图像进行处理后输出的特征表示,微调初始行人重识别模型的网络参数,得到行人重识别模型。本发明可以提高预训练模型的准确度,从而使得行人重识别模型的精度较高,提高了行人重识别准确度。
-
-
-
-
-
-
-
-
-