-
公开(公告)号:CN118922854A
公开(公告)日:2024-11-08
申请号:CN202280093320.9
申请日:2022-03-29
Applicant: 微软技术许可有限责任公司
IPC: G06T3/4076
Abstract: 一种计算系统,包括处理器和存储由处理器可执行的指令的存储器,以获得视频中的图像帧的序列。序列的目标图像帧被输入到轨迹感知变换器的视觉标记嵌入网络中,以输出多个查询标记。多个不同的图像帧被输入到运动估计网络、视觉标记嵌入网络,和值嵌入网络中,以分别输出针对每个图像帧的位置图、多个关键标记,和多个值嵌入。从多个不同的图像帧中选择具有来自多个关键标记之中的最接近的相似性值的图像帧,以及在目标时间步处根据索引查询标记、所选择的帧的值嵌入,和目标图像帧的函数来生成超分辨率图像帧。
-
公开(公告)号:CN117689745A
公开(公告)日:2024-03-12
申请号:CN202211074190.2
申请日:2022-09-02
Applicant: 微软技术许可有限责任公司
IPC: G06T11/00 , G06T9/00 , G06N3/08 , G06N3/0464 , G06F40/30
Abstract: 本公开的实施例提供了基于提示从文本生成图像的方案。在该方案中,使用多模态语义对齐的文本编码器和图像编码器来提供语义对齐的提示文本嵌入和提示图像嵌入。文本编码器将输入文本编码为文本嵌入,并使用提示文本嵌入和提示图像嵌入作为基准,将输入文本的文本嵌入投影为与输入文本语义相关的图像嵌入。然后,利用转换网络将图像嵌入转换为图像生成器的隐空间中的隐嵌入,图像生成器基于携带语义信息的隐嵌入来生成与输入文本语义相关的图像。以此方式,能够从包括语义的文本生成具有对应语义的图像,并且能够提升所生成的图像质量。
-
公开(公告)号:CN115222859A
公开(公告)日:2022-10-21
申请号:CN202110412709.2
申请日:2021-04-16
Applicant: 微软技术许可有限责任公司
IPC: G06T13/80
Abstract: 根据本公开的实现,提出了一种用于从图像生成视频的方案。在该方案中,获取输入图像和参考视频。基于参考视频,确定参考视频中的参考对象的运动模式。生成以输入图像作为起始帧的输出视频,输入图像中的目标对象在输出视频中的运动具有参考对象的运动模式。以此方式,该方案能够直观地将参考视频中的参考对象的运动模式应用于输入图像,以生成输出视频,并且目标对象在输出视频中的运动具有参考对象的运动模式。
-
公开(公告)号:CN115017911A
公开(公告)日:2022-09-06
申请号:CN202110247301.4
申请日:2021-03-05
Applicant: 微软技术许可有限责任公司
IPC: G06F40/30 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 根据本公开的实现,提出了一种用于跨模态处理的方案。在该方案中,根据目标模型中的视觉特征提取子模型,提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典,确定与该组视觉特征对应的一组视觉语义特征。根据目标模型中的文本特征提取子模型,提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征,训练目标模型以用于确定输入文本和输入图像之间的关联信息。以此方式,可以促进经训练的目标模型在各种视觉‑语言任务中准确且快速地提供结果。
-
-
-