-
公开(公告)号:CN112860847B
公开(公告)日:2022-08-19
申请号:CN202110069976.4
申请日:2021-01-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。
-
公开(公告)号:CN114598874A
公开(公告)日:2022-06-07
申请号:CN202210068433.5
申请日:2022-01-20
Applicant: 中国科学院自动化研究所
IPC: H04N19/124 , H04N19/136 , G06T9/00 , G06V20/40 , G06V10/82 , G06N3/04
Abstract: 本发明提供一种视频量化编解码方法、装置、设备及存储介质,该方法包括:将原始视频的N个视频帧输入视频处理模型的编码模块,输出M个视频帧的量化特征编码,M和N均为正整数,M小于或等于N;将所述M个视频帧的量化特征编码输入到视频处理模型的解码模块,将所述M个视频帧的量化特征编码映射为M个第一视频帧特征;根据所述M个第一视频帧特征,通过时间轴注意力机制,重建每个第一视频帧特征对应的第一参考帧特征,得到M个第一参考帧特征;基于所述M个第一视频帧特征和所述M个第一参考帧特征,输出重构视频。
-
公开(公告)号:CN112734634B
公开(公告)日:2021-07-27
申请号:CN202110337402.0
申请日:2021-03-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种换脸方法、装置、电子设备和存储介质,其中方法包括:确定源人脸图像和目标人脸图像;将源人脸图像和目标人脸图像输入至人脸生成器中,得到人脸生成器输出的换脸图像;人脸生成器是基于样本图像对,与人脸判别器对抗训练得到的,人脸判别器用于对样本图像对及其样本换脸图像进行真伪判别,样本换脸图像是人脸生成器基于样本图像对进行换脸得到的。本发明提供的方法、装置、电子设备和存储介质,结合人脸判别器训练所得的人脸生成器,具有较强的泛化性能,可以适配任意人脸图像,无身份限制。且人脸生成器的训练样本也不需要大量相同身份的人脸图像,能够有效降低样本获取难度和获取成本,进一步提高换脸方法的适用范畴。
-
公开(公告)号:CN112860847A
公开(公告)日:2021-05-28
申请号:CN202110069976.4
申请日:2021-01-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视频问答的交互方法及系统,所述交互方法包括:从待处理的原始视频及与问题文本中,得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征;针对每帧图像中的每一目标,根据文本特征以及目标的第一视觉特征及第一语义特征,确定目标的第二视觉特征及第二语义特征;根据文本特征、目标的第二视觉特征及第二语义特征,得到该帧图像的第一全局视觉表示及第一全局语义表示;根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示,得到各帧图像的全局视觉表示;根据文本特征及各帧图像的全局视觉表示,得到原始视频的全局视觉特征表示;根据所述全局视觉特征表示及文本特征,可准确得到所述原始视频的问题答案。
-
公开(公告)号:CN112734634A
公开(公告)日:2021-04-30
申请号:CN202110337402.0
申请日:2021-03-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种换脸方法、装置、电子设备和存储介质,其中方法包括:确定源人脸图像和目标人脸图像;将源人脸图像和目标人脸图像输入至人脸生成器中,得到人脸生成器输出的换脸图像;人脸生成器是基于样本图像对,与人脸判别器对抗训练得到的,人脸判别器用于对样本图像对及其样本换脸图像进行真伪判别,样本换脸图像是人脸生成器基于样本图像对进行换脸得到的。本发明提供的方法、装置、电子设备和存储介质,结合人脸判别器训练所得的人脸生成器,具有较强的泛化性能,可以适配任意人脸图像,无身份限制。且人脸生成器的训练样本也不需要大量相同身份的人脸图像,能够有效降低样本获取难度和获取成本,进一步提高换脸方法的适用范畴。
-
公开(公告)号:CN118799947B
公开(公告)日:2024-12-13
申请号:CN202411265940.3
申请日:2024-09-11
Applicant: 中国科学院自动化研究所
IPC: G06V40/16 , G06V10/74 , G06V10/774 , G06V20/00 , G06V40/40
Abstract: 本申请提供了一种人脸防伪识别模型的训练方法、人脸防伪识别方法和装置,该训练方法包括获取人脸防伪识别训练集,其中,人脸防伪识别训练集包括多个人脸防伪训练图像和类别标签集,类别标签集包括真实人脸类型标签和多种攻击类型标签;利用预训练语言模型处理类别标签集,得到上下文向量集合;利用参数提示生成网络处理上下文向量集合和类别标签集,生成文本提示集;利用编码器网络处理人脸防伪训练图像和文本提示集,分别生成图像特征和多个文本特征;计算图像特征和多个文本特征之间的样本相似信息,以根据多个样本相似信息生成目标损失值;根据目标损失值迭代地调整参数提示生成网络的网络参数,从而得到经训练的人脸防伪识别模型。
-
公开(公告)号:CN118799947A
公开(公告)日:2024-10-18
申请号:CN202411265940.3
申请日:2024-09-11
Applicant: 中国科学院自动化研究所
IPC: G06V40/16 , G06V10/74 , G06V10/774 , G06V20/00 , G06V40/40
Abstract: 本申请提供了一种人脸防伪识别模型的训练方法、人脸防伪识别方法和装置,该训练方法包括获取人脸防伪识别训练集,其中,人脸防伪识别训练集包括多个人脸防伪训练图像和类别标签集,类别标签集包括真实人脸类型标签和多种攻击类型标签;利用预训练语言模型处理类别标签集,得到上下文向量集合;利用参数提示生成网络处理上下文向量集合和类别标签集,生成文本提示集;利用编码器网络处理人脸防伪训练图像和文本提示集,分别生成图像特征和多个文本特征;计算图像特征和多个文本特征之间的样本相似信息,以根据多个样本相似信息生成目标损失值;根据目标损失值迭代地调整参数提示生成网络的网络参数,从而得到经训练的人脸防伪识别模型。
-
公开(公告)号:CN116628490A
公开(公告)日:2023-08-22
申请号:CN202310369935.6
申请日:2023-04-07
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机技术领域,提供一种图文音多模态预训练模型方法、装置、电子设备和介质,其中方法包括:获取训练样本的多模态信息;基于多模态信息中文本模态特征与其他模态特征之间的语义相似度,将多模态信息进行特征分组对齐,得到各模态分组并确定分组对齐损失;基于各模态分组中图、音和图音模态中的一种,对随机掩码的文本进行文本重建,并基于各组重建文本和各组样本文本确定文本重建损失;基于分组对齐损失和文本重建损失,对模型进行参数迭代,得到多模态模型。本发明提供的图文音多模态预训练模型方法、装置、电子设备和介质,能够提高多模态模型的下游任务性能和泛化性能。
-
公开(公告)号:CN114638905B
公开(公告)日:2023-02-21
申请号:CN202210114595.8
申请日:2022-01-30
Applicant: 中国科学院自动化研究所
IPC: G06T9/00
Abstract: 本发明提供一种图像生成方法、设备、装置及存储介质,该图像生成方法包括:通过目标任务对应的目标编码器,获取目标图像标记序列;基于所述目标图像标记序列相对应的图像隐特征码字,获取连续的图像隐特征权重向量;基于所述连续的图像隐特征权重向量,获取所述目标任务的目标图像;其中,所述目标任务包括图像重构任务和/或文本转图像任务。本发明通过目标编码器获取目标图像标记序列后,使用图像标记序列相对应的图像隐特征码字获取连续的图像隐特征权重向量,基于连续的图像隐特征权重向量获取图像,从而实现减少对图像进行量化时的量化误差,保留获取图像的图像细节信息。
-
公开(公告)号:CN114598926B
公开(公告)日:2023-01-03
申请号:CN202210068441.X
申请日:2022-01-20
Applicant: 中国科学院自动化研究所
IPC: H04N21/4402 , G06F16/332 , G06F40/30
Abstract: 本发明提供一种视频生成方法、装置、电子设备及存储介质,包括:对待推理文本进行预处理,得到待推理文本的文本标识序列;将待推理文本的文本标识序列输入训练好的神经网络视频生成模型,生成待推理文本对应的视频;训练好的神经网络视频生成模型是根据待推理文本真实样本的文本标识序列和待推理文本真实样本对应的视频真实样本的标识序列进行训练得到的,视频真实样本的标识序列包括第一视频帧的标识序列和第二视频帧的标识序列,第二视频帧的分辨率高于目标分辨率阈值,第一视频帧的分辨率小于第二视频帧的分辨率,第一视频帧为第二视频帧前一时刻的视频帧。本发明方法实现了生成与待推理文本语义相匹配的泛化性好且分辨率高的高质量视频。
-
-
-
-
-
-
-
-
-