-
公开(公告)号:CN118711010A
公开(公告)日:2024-09-27
申请号:CN202410732903.2
申请日:2024-06-06
Applicant: 北京达佳互联信息技术有限公司
IPC: G06V10/774 , G06V10/80 , G06V10/56 , G06V10/82 , G06N3/08
Abstract: 本公开关于一种图像生成模型训练方法、图像生成方法及相关设备,该方法包括:获取样本图像集,确定样本图像集中各样本图像的分辨率;根据各样本图像的分辨率对应的宽高比对样本图像进行聚类处理,得到多个目标聚类样本图像集;多个目标聚类样本图像集对应不同的预设分辨率宽高比;根据每个目标聚类样本图像集对应的预设分辨率宽高比,将目标聚类样本图像集中样本图像的分辨率调整为与预设分辨率宽高比对应的目标分辨率,得到多个训练样本图像集;基于多个训练样本图像集对图像去噪网络进行多轮迭代训练,得到图像生成模型;多轮迭代训练中每轮迭代训练基于不同的训练样本图像集。本公开确保了训练所得图像生成模型能稳定地生成高质量的图像。
-
公开(公告)号:CN117041683A
公开(公告)日:2023-11-10
申请号:CN202310848350.2
申请日:2023-07-11
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/485 , G10L15/00 , G10L15/18 , G10L15/26 , G10L25/06 , G06F40/55 , H04N21/488
Abstract: 本公开关于一种字幕生成方法、装置、电子设备及存储介质,所述方法包括:对多媒体资源中的第一文本进行切分处理,得到第一文本对应的多个第一子文本,确定在多媒体资源中多个第一子文本各自对应的显示时间区间;对多个第一子文本对应的拼接文本进行翻译,得到第二文本,对第二文本进行切分,得到第二文本对应的多个第二子文本;根据多个第一子文本各自对应的显示时间区间,以及多个第一子文本与多个第二子文本之间的对应关系,确定在多媒体资源中多个第二子文本各自对应的显示时间区间;基于多个第二子文本各自对应的显示时间区间,在多媒体资源中嵌入多个第二子文本,生成多媒体资源的翻译字幕。本公开实现了高效地为多媒体资源添加翻译字幕。
-