-
公开(公告)号:CN116912611A
公开(公告)日:2023-10-20
申请号:CN202310152531.1
申请日:2023-02-10
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06V10/774 , G06T11/60 , G06T11/00 , G06V10/764 , G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种模型训练方法、海报图像处理方法、电子设备及存储介质。其中,模型训练方法包括:获得训练样本数据,所述训练样本包含第一类样本数据和第二类样本数据,所述第一类样本数据包含获得的实际海报图像、海报图像的文字掩膜(mask),所述第二类样本数据包含利用图像生成海报文字而得到的海报图像、海报图像的文字mask和生成海报图像的原始图像;利用训练样本数据对第一模型进行训练,所述第一模型用于去除待擦除海报图像中的文字并对文字区域进行修复。
-
公开(公告)号:CN118823500A
公开(公告)日:2024-10-22
申请号:CN202410135803.1
申请日:2024-01-31
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06V10/774 , G06V10/26 , G06V10/82 , G06V10/44 , G06V10/77 , G06V10/80 , G06V20/70 , G06V40/10 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 本申请公开了一种人像分割模型的训练及应用方法、装置、设备、介质和产品。该训练方法包括:对未标注的初始图像样本进行遮挡处理,生成未标注的预训练图像样本;基于初始图像样本和预训练图像样本,预训练第一人像分割模型,直至得到预训练好的第一人像分割模型,第一人像分割模型用于对预训练图像样本的遮挡区域进行预测;调整第一人像分割模型的输出层和第一人像分割模型的损失函数,构建第二人像分割模型的网络结构;基于已标注的图像样本和第二人像分割模型的网络结构,调整第二人像分割模型,直至得到调整好的第二人像分割模型。如此,在提升人像分割模型的准确性的同时,又降低了人像分割模型的成本。
-
公开(公告)号:CN118799674A
公开(公告)日:2024-10-18
申请号:CN202410281894.X
申请日:2024-03-12
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06V10/774 , G06F18/25 , G06N3/045 , G06N3/08
Abstract: 本申请公开了一种模型训练方法,该方法包括:获取待训练样本数据;其中,所述待训练样本数据包括图像样本数据和所述图像样本数据对应的文本标签;采用所述待训练样本数据对待训练模型进行模型训练,直至得到已训练好的对象识别模型;其中,所述待训练模型至少包括:对所述待训练样本数据进行文本特征和图像特征进行融合处理的融合处理网络,对所述待训练样本数据进行视觉分析的视觉主干网络,和对所述待训练样本数据和融合处理网络的输出结果进行文本分析的文本主干网络。本申请还公开一种识别方法、装置、设备、存储介质及计算机程序产品。
-
公开(公告)号:CN118799178A
公开(公告)日:2024-10-18
申请号:CN202410263143.5
申请日:2024-03-07
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06T3/4053 , G06T3/4046 , G06T5/60 , G06N3/045 , G06N3/096
Abstract: 本申请实施例提供了一种图像处理方法、图像处理装置及存储介质,该方法包括:图像处理装置将待预测LR图像输入至第一目标清晰化模型,获得待预测LR图像对应的SR图像;其中,第一目标清晰化模型是第二目标清晰化模型和第三目标清晰化模型融合获得的;第二目标清晰化模型是通过第一损失函数和渐进式训练策略对第一初始清晰化模型进行训练获得的;第一初始清晰化模型包括初始教师网络模型和初始学生网络模型;初始学生网络模型至少包括重参数化模块;第三目标清晰化模型用于重建第一生物特征的图像信息,从而可以提升模型的重建性能。
-
公开(公告)号:CN118799460A
公开(公告)日:2024-10-18
申请号:CN202410016562.9
申请日:2024-01-05
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本发明提供一种视频生成方法、装置、设备及介质。本发明的方法,包括:针对第一视频中的帧图像,将帧图像、第一目标外貌图像和多帧第一稠密姿态图像输入至视频生成模型,获得第一噪声;其中,第一目标外貌图像为具有第一目标外貌的人物图像,多帧第一稠密姿态图像包括连续多帧与第一目标姿态相关的人物图像,视频生成模型包括训练后的第一噪声预测模型和训练后的第二噪声预测模型,训练后的第一噪声预测模型用于捕捉目标姿态,训练后的第二噪声预测模型用于恢复目标外貌;对第一噪声进行去噪处理,获得去噪后的帧图像;根据去噪后的帧图像,生成第二视频。本发明的方法能够大大提升了生成视频的视觉质量。
-
公开(公告)号:CN118799447A
公开(公告)日:2024-10-18
申请号:CN202410302507.6
申请日:2024-03-15
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: G06T11/60 , G06T5/50 , G06T5/77 , G06N3/094 , G06N3/0475 , G06N3/045 , G06N3/0464
Abstract: 本申请实施例提供了一种图像编辑方法、图像编辑装置及存储介质,该方法包括:图像编辑装置将待预测图像输入至目标扩散模型,获得待预测图像对应的第一目标图像;其中,目标扩散模型包括融合模块和目标图像生成模块,融合模块用于将待预测图像对应的第一特征图和待预测图像对应的第二特征图进行融合处理;目标扩散模型是基于训练图像集对初始图像生成模块进行训练获得的;初始图像生成模块包括修复模块,修复模块用于将随机掩码和训练图像集中的第二目标图像对应的初始权重图进行融合处理,从而可以提高模型的预测精准度。
-
公开(公告)号:CN118799445A
公开(公告)日:2024-10-18
申请号:CN202410014944.8
申请日:2024-01-04
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本申请实施例公开了一种图像合成方法、装置、设备及计算机可读存储介质,其中,所述方法包括:基于第一图像,确定N个第一对象的深度值以及掩码,N为正整数,所述第一图像包括所述N个第一对象;基于M个第二图像,确定M个第二对象的深度值以及掩码,M为正整数,所述M个第二图像中的每个第二图像包括一个所述第二对象;基于所述第一图像、所述M个第二图像、所述N个第一对象的深度值以及掩码和所述M个第二对象的深度值以及掩码,生成合成图像以及所述合成图像对应的掩码;所述合成图像包括所述N个第一对象和所述M个第二对象,且在所述合成图像中深度值较小的对象覆盖深度值较大的对象。
-
公开(公告)号:CN116916114A
公开(公告)日:2023-10-20
申请号:CN202310569462.4
申请日:2023-05-19
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本发明提供一种说话人视频生成方法、装置及电子设备,涉及人工智能技术领域,其中,所述方法包括:基于预训练的语音特征提取网络提取目标音频的语音特征;提取目标图像的深度信息,并对所述目标图像的像素进行稀疏采样处理,得到多个离散像素位置;基于所述深度信息对每个所述离散像素位置发出的光线进行空间点采样处理,得到每个离散像素位置对应的多个空间点位置;基于所述语音特征确定所述多个空间点位置对应的特征信息;对所述特征信息进行渲染处理,得到说话人视频。本发明实施例能够提高说话人视频的生成速度。
-
公开(公告)号:CN118828052A
公开(公告)日:2024-10-22
申请号:CN202311733538.9
申请日:2023-12-15
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , H04N21/845
Abstract: 本申请公开了一种视频处理方法、装置、设备及计算机可读存储介质。其中,方法包括:获取第一视频片段和第二视频片段;所述第一视频片段和所述第二视频片段为待拼接视频中处于同一场景的不同视频片段;对所述第一视频片段和所述第二视频片段进行帧提取,得到所述第一视频片段对应的第一视频帧和所述第二视频片段对应的第二视频帧;确定所述第一视频帧到所述第二视频帧的第一光流强度,以及所述第二视频帧到所述第一视频帧的第二光流强度;基于所述第一视频帧、所述第二视频帧、所述第一光流强度、所述第二光流强度以及位移因子,生成目标中间视频帧;所述位移因子表征所述目标中间视频帧的位置。
-
公开(公告)号:CN118823626A
公开(公告)日:2024-10-22
申请号:CN202410488320.X
申请日:2024-04-22
Applicant: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
Abstract: 本申请公开了一种视频处理方法、装置、设备、存储介质及计算机程序产品。其中,该视频处理方法包括:生成当前时刻的视频数据;对所述当前时刻的视频数据进行特征检测,得到面部关键特征点,并确定所述面部关键特征点处的第一特征表征;所述第一特征表征包括与当前视角相关的历史特征表征信息和与所述当前视角无关的历史特征表征信息;对所述当前时刻的视频数据进行特征提取,得到第二特征表征;所述第二特征表征包括面部图像的历史全局特征表征;将所述第一特征表征、所述第二特征表征以及当前时刻的下一时刻的语音信息输入至预先训练的神经渲染网络模型中,生成下一时刻的目标视频数据。
-
-
-
-
-
-
-
-
-