-
公开(公告)号:CN116228959A
公开(公告)日:2023-06-06
申请号:CN202211515098.5
申请日:2022-11-30
Applicant: 华为技术有限公司
IPC: G06T17/00 , G06T3/00 , G06F16/538 , G06F16/55 , G06F16/583 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本申请提供一种物体生成的方法包括:将文本输入二维图片生成模型,输出物体的多个视角的二维图片;文本用于描述物体的特征,特征包括物体类别、颜色和形状;二维图片生成模型用于根据文本生成多个视角的二维图片;视角为物体呈现的空间角度;计算多个视角的二维图片与文本的相似度的值,根据相似度的值得到多个视角增强的二维图片;将多个视角增强的二维图片输入三维物体生成模型,三维物体生成模型基于多个视角增强的二维图片渲染出其他角度的二维图片,输出符合文本描述的三维物体。本申请采用二维图片生成模型根据文本生成对应物体的多个视角的二维图片,再采用三维物体生成模型根据多个视角的二维图片生成对应3D物体,能够提高生成的3D物体的质量以及加快3D物体生成的速度。
-
公开(公告)号:CN116861850A
公开(公告)日:2023-10-10
申请号:CN202310751865.0
申请日:2023-06-21
Applicant: 华为技术有限公司
IPC: G06F40/126 , G06F40/194 , G06V30/164 , G06V30/19
Abstract: 一种数据处理方法,应用于人工智能领域,包括:获取第一特征表示、第二特征表示和第三特征表示;第一特征表示包括通过扩散模型中的加噪模块对原始文本特征进行第一步长的加噪后得到的特征表示;第二特征表示为第一步长的特征表示;第三特征表示为第一图像的特征表示;根据第一特征表示、第二特征表示和第三特征表示,通过扩散模型中的去噪模块对原始文本特征进行预测,得到第四特征表示;根据第四特征表示,通过对比学习,更新去噪模块。本申请将图文对比学习转化为以图像为条件的文本生成过程,使得实现图像生成的模型和实现图文对比学习的模型之间参数共享,从而实现了在一套框架中实现图文对齐和图像生成,降低了部署的存储开销和计算开销。
-
公开(公告)号:CN115375781A
公开(公告)日:2022-11-22
申请号:CN202210857639.6
申请日:2022-07-20
Applicant: 华为技术有限公司
IPC: G06T9/00 , G06F40/126 , G06V20/60
Abstract: 一种数据处理方法,应用于人工智能领域,方法包括:获取图像以及多个第一信息,每个第一信息指示一个对象的类别;通过文本编码器,分别独立处理多个第一信息中的每个第一信息,以得到每个第一信息对应的第一编码结果;通过图像编码器,处理图像,得到第二编码结果;根据第一编码结果和第二编码结果,从多个第一信息指示的多个标签中识别出图像中包括的对象的类别。本申请将图像中不同对象的信息分别作为不同的输入数据输入到文本编码器中,文本编码器可以分别独立处理多个第一信息中的每个第一信息,文本编码器在处理每个第一信息时减少了不必要的注意力计算,提高了模型的运行效率。
-
公开(公告)号:CN117671055A
公开(公告)日:2024-03-08
申请号:CN202311582074.6
申请日:2023-11-23
Applicant: 华为技术有限公司
Abstract: 一种数据处理方法,包括:将用户输入文本作为大语言模型的输入,输出多个提示文本;将多个提示文本作为文图生成模型的输入,输出对应的多个图像。对用户输入文本和多个图像进行处理,得到每个图像的奖励分数,奖励分数与整体信息分数和局部信息分数有关。确定包括奖励分数为目标分数的至少一个提示文本为目标提示文本。将用户输入文本和目标提示文本作为第一训练样本,多个第一练样本对形成第一训练集。使用第一训练集训练大语言模型。也就是说,本申请通过训练大语言模型,使得大语言模型可以对用户输入文本进行扩充得到提示文本。进而,由于提示文本包括了丰富的细节和场景信息,因此文图生成模型可以生成包含丰富信息的图像。
-
公开(公告)号:CN117669691A
公开(公告)日:2024-03-08
申请号:CN202311086784.X
申请日:2023-08-25
Applicant: 华为技术有限公司
IPC: G06N3/094 , G06N3/0895 , G06N3/0475 , G06N3/045 , G06T15/02 , G06V40/10 , G06V40/16 , G06V10/74 , G06V10/80
Abstract: 一种数据处理方法,应用于人工智能领域,包括:获取第一文本和第一图像;所述第一文本为人物的描述信息;所述第一图像为以所述第一文本为条件通过生成网络得到的图像,所述第一文本的语义包括标签,所述标签用于描述所述人物的部分特征;对与标签相关联的至少一个身体部位的第一特征表示进行融合,并根据融合结果,更新生成网络。本申请可以使得训练后的生成网络具备细粒度的数据处理能力,提高后续数据生成的效果。
-
公开(公告)号:CN117453949A
公开(公告)日:2024-01-26
申请号:CN202311232024.5
申请日:2023-09-21
Applicant: 华为技术有限公司
IPC: G06F16/78 , G06F16/783 , G06V10/762 , G06V20/40 , G06V10/40 , G06V10/74 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本申请提供计算机视觉领域的一种视频定位方法以及装置,可以利用无标注的视频数据进行训练,降低标注成本,大大降低视频定位所需的人力开销,且可以实现零样本的视频定位,泛化能力非常强。该方法包括:获取视频数据集合,视频数据集合中包括视频数据,该视频数据包括多帧图像;分别获取视频数据的第一视频特征和第一文本特征,该第一视频特征为从视频数据中提取到的特征,该第一文本特征包括描述视频数据中每帧图像的多个词;随后,对第一视频特征进行切分,得到多个视频片段的特征;并对多个词与多个视频片段进行映射,得到每个视频片段对应的文本描述;根据每个视频片段对应的文本描述,对视频定位模型进行训练,得到训练后的视频定位模型。
-
公开(公告)号:CN114943789A
公开(公告)日:2022-08-26
申请号:CN202210313671.8
申请日:2022-03-28
IPC: G06T11/60 , G06T5/50 , G06V10/26 , G06V10/771 , G06V10/774
Abstract: 本申请公开了一种图像处理方法,应用于人工智能技术领域。在该方法中,将图像编辑任务分成两部分来执行,先基于待编辑区域的提示文本有效地区分图像中的待编辑区域和内容保留区域,然后将输入文本的特征与图像中的内容保留区域的特征进行融合处理,最终得到图像编辑结果。由于预先基于待编辑区域的提示文本来区分图像中的两种区域,因此能够在特征处理阶段只对内容保留区域的特征和输入文本的特征进行融合处理,从而使得图像编辑结果中能够完整地保留内容保留区域的内容,并且图像编辑结果中的编辑内容能够很好地满足输入文本的描述。
-
-
-
-
-
-