-
公开(公告)号:CN118552659A
公开(公告)日:2024-08-27
申请号:CN202310132466.6
申请日:2023-02-17
Applicant: 华为云计算技术有限公司
IPC: G06T11/60 , G06T11/40 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/088
Abstract: 一种文本生成图像的方法、模型训练方法及装置,涉及人工智能领域,用于提高处理效率,提升生成图像的质量。本申请设计一种图像Token解码器,在预测图像的Token序列时,采用划分L型区块的方式,按照L型区块邻接的方式,按照顺序迭代解码各个L型区块包括的Token序列。由于下一个预测的L型区块与已预测的Token序列在空间上具有相关性,从而可以提高生成的图像质量。另外,无需每次都预测图像的所有图像块的Token,从而可以提高预测的效率。
-
公开(公告)号:CN117473332A
公开(公告)日:2024-01-30
申请号:CN202210848576.8
申请日:2022-07-19
Applicant: 华为云计算技术有限公司
IPC: G06F18/22 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V20/70 , G06V10/82 , G06F40/30 , G06F16/583 , G06F16/532 , G06F16/332 , G06F16/33 , G06V10/764
Abstract: 本申请实施例公开一种数据的处理方法以及相关设备,该方法可用于人工智能领域中,方法包括:获取第一图像中每个图像区域的特征信息,第一图像包括多个图像块,每个图像区域包括至少两个相邻的图像块;获取第一文本中每个对象描述信息的特征信息,对象描述信息包括对象的类别;根据每个图像区域的特征信息和每个对象描述信息的特征信息,通过第一神经网络生成第一指示信息,第一指示信息指示任意一个图像区域和任意一个对象描述信息之间的相似度。在图像区域和对象描述信息这一粒度计算特征信息之间的相似度,更能准确的反映图像区域和对象描述信息在语义上的相似度,进而有利于准确反映图像的语义和文本的语义之间的关系。
-
公开(公告)号:CN117828340A
公开(公告)日:2024-04-05
申请号:CN202211181895.4
申请日:2022-09-27
Applicant: 华为云计算技术有限公司
IPC: G06F18/214 , G06F18/22
Abstract: 本申请提供了一种模型训练的方法,用于提高多模态识别模型的泛用性。其中,模型训练方法包括:获取第一训练数据集,所述第一训练数据集包括多组用于描述第一类对象的多模态数据;基于第一模型和所述第一训练数据集确定第一参数,所述第一模型用于对不同模态数据进行相似度识别,所述第一参数根据所述第一模型对不同的所述第一类对象的不同模态数据之间的相似度识别结果确定;根据所述第一参数和所述第一训练数据集训练所述第一模型,得到第二模型,所述第二模型用于对所述第一类对象的不同模态数据进行相似度识别。另外,本申请还提供了对应的装置、计算设备集群、芯片、计算机可读存储介质以及计算机程序产品。
-
公开(公告)号:CN117423023A
公开(公告)日:2024-01-19
申请号:CN202210812021.8
申请日:2022-07-11
Applicant: 华为云计算技术有限公司
IPC: G06V20/40 , G06V20/62 , G06V30/262 , G06V30/19
Abstract: 一种视频情感定位方法及装置,涉及AI技术领域。该方法中包括:将待处理的视频划分为多个片段,以及获取各个片段的视频特征、及各个片段对应的字幕的字幕特征,然后根据各个片段的视频特征和各个片段对应的字幕的字幕特征,利用情感识别模型获得各个片段对应各个情感的概率,最后根据各个片段对应各个情感的概率,确定各个情感在该视频中对应的片段。该方法中情感识别模型融合片段的视频特征和片段对应的字幕特征进行情感识别,可以通过视频和字幕之间固有的语义一致性提高情感识别的准确性。
-
-
-