图像生成模型训练方法以及图像生成方法

    公开(公告)号:CN119919281A

    公开(公告)日:2025-05-02

    申请号:CN202411997071.3

    申请日:2024-12-31

    Abstract: 本公开关于图像生成模型训练方法以及图像生成方法,该训练方法包括获取控制模型,以及预训练的图像生成器和文本编码器;获取样本文本和样本参考图像,样本文本为用于描述待生成的图像中的人像的文本内容,样本参考图像指示待生成的图像中的全身人像的形态;将样本文本输入文本编码器进行文本编码,得到样本文本特征;基于控制模型对样本参考图像进行特征处理,得到样本图像引导特征;将样本文本特征和样本图像引导特征输入图像生成器进行图像生成,得到预测图像,预测图像的全身人像包括人脸;基于预测图像调整控制模型参数;对调参后的控制模型、文本编码器和图像生成器进行组合,得到图像生成模型。本公开提供带有人脸的全身人像的生成能力。

    图像超分辨率模型训练方法、超分辨率处理方法及装置

    公开(公告)号:CN118334467A

    公开(公告)日:2024-07-12

    申请号:CN202410459179.0

    申请日:2024-04-16

    Abstract: 本公开关于一种图像超分辨率模型训练方法、超分辨率处理方法及装置,该图像超分辨率模型训练方法包括:从初始样本图像集中获取对象类别不同、图像风格不同且图像美学评分大于预设美学阈值的第一候选样本图像;从第一候选样本图像中获取文本生成数据大于预设生成阈值的第二候选样本图像;从第二候选样本图像中获取分辨率大于第一预设分辨率阈值的第三候选样本图像;对第三候选样本图像进行数据增强;将增强样本图像和第三候选样本图像输入预设网络,得到超分样本图像,以及根据超分样本图像和第三候选样本图像之间的差异对预设网络进行训练得到图像超分辨率模型。本公开能够针对低分辨率的文本生成图像生成更高分辨率的图像。

    基于图神经网络的信息推荐方法、系统、设备和存储介质

    公开(公告)号:CN113468227B

    公开(公告)日:2024-05-24

    申请号:CN202110711203.1

    申请日:2021-06-25

    Abstract: 本发明公开了一种基于图神经网络的信息推荐方法、系统、设备和存储介质,相关方法包括:对于用户与物品交互关系的二部图,通过聚类的方式划分为若干子图;在每个子图上进行图卷积,来传播一阶和高阶的协同信号以挖掘用户的兴趣,得到每个子图的节点嵌入向量;将每个子图作为一个局部模型,通过局部模型的节点嵌入向量计算不同局部模型的相似度并映射到核空间,获得权重矩阵M,获得二部图中每个节点最终的预测向量;利用最终的预测向量,预测各用户与各物品的匹配得分,按照匹配得分大小做降序排列,并将匹配得分靠前的多个物品推荐给相应用户。该方法既能有效捕捉数据中的长尾特性,又能捕捉协同过滤信号,提升模型精度和多样性,提升推荐效果。

    图像处理方法、装置、电子设备及存储介质

    公开(公告)号:CN118037759A

    公开(公告)日:2024-05-14

    申请号:CN202410115802.0

    申请日:2024-01-26

    Abstract: 本公开关于一种图像处理方法、装置、电子设备及存储介质,所述方法包括:获取目标对象图像以及待更新背景的目标背景描述信息;提取目标对象图像中目标主体图像的目标蒙版图像;基于目标对象图像以及目标蒙版图像,确定目标条件图像;目标条件图像包括目标边缘图像、目标深度图像、目标掩码图像中的至少一个;目标边缘图像表征目标对象图像中目标主体的边缘信息,目标深度图像表征目标主体的深度信息,目标掩码图像表征目标主体对应的掩码信息;基于目标对象图像、目标背景描述信息以及目标条件图像,对目标对象图像的背景图像进行更新,得到目标更新图像。本公开提高了目标更新图像的质量。

    多媒体数据的排序方法、装置、服务器及存储介质

    公开(公告)号:CN112364184B

    公开(公告)日:2024-04-30

    申请号:CN202011264599.1

    申请日:2020-11-12

    Inventor: 张志伟 李岩

    Abstract: 本公开关于一种多媒体数据的排序方法、装置、服务器及存储介质,属于计算机技术领域。本公开提供的方案,通过在接收到目标账号的搜索请求时,确定在目标账号要搜索的搜索关键词下,多个多媒体数据发生互动操作的概率,进而结合多个多媒体数据的相关性特征和质量特征,对这多个多媒体数据进行排序,由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度,质量特征能够表示多媒体数据的内容质量,从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据,提高了多媒体数据的排序准确性。

    文字检测方法、装置、电子设备和存储介质

    公开(公告)号:CN111783771B

    公开(公告)日:2024-03-19

    申请号:CN202010535376.8

    申请日:2020-06-12

    Inventor: 张水发 李岩

    Abstract: 本公开关于文字检测方法、装置、电子设备和存储介质,所述方法包括:获取视频第t+1帧图像中第一位置的像素的像素值Pt+1,计算像素值Pt+1与预设模型中每个像素值的差值,以得到n个差值的绝对值,其中,预设模型为第t帧图像中第一位置的像素的n个邻像素的像素值的集合;若大于预设值的绝对值的数量大于预设数量,确定第t+1帧图像中第一位置的像素属于前景,连通属于前景的像素,构成连通区域;对连通区域进行检测,以确定第t+1帧图像中的文字。根据本公开的实施例,可以准确地确定图像中的前景区域,再对前景区域进行检测来确定图像中的文字,从而在播放每一帧图像时,只需对前景进行检测,而不必对整张图像进行检测,以便快速地检测出图像中的文字。

    一种音频分类方法、装置及存储介质

    公开(公告)号:CN112380382B

    公开(公告)日:2024-03-12

    申请号:CN202011324279.0

    申请日:2020-11-23

    Inventor: 张文文 李岩 姜涛

    Abstract: 本申请公开了一种音频分类方法、装置及存储介质,涉及音频处理领域,以挖掘出当前最新的,播放热度高的歌曲。该方法中,通过目标音频的音频指纹获取对应的音频检索资源,并将目标指纹分别与对应的音频检索资源进行指纹匹配,从而得到目标指纹的待分类音频集合。将目标音频与待分类音频集合中的各待分类音频进行分类,得到分类结果。这样,通过对目标音频的音频分类,可以得到目标音频分类后的音频,从而在较多的音频内容中,提高音频分类的准确性。

    音频文件的原唱检测方法、装置、服务器及存储介质

    公开(公告)号:CN111508506B

    公开(公告)日:2024-03-01

    申请号:CN202010259245.1

    申请日:2020-04-03

    Inventor: 张文文 李岩 姜涛

    Abstract: 本公开关于一种音频文件的原唱检测方法、装置、服务器及存储介质,该方法包括:提取待检测音频文件的音频指纹,根据待检测音频文件的音频指纹,确定与待检测音频文件对应的歌曲音频文件;从待检测音频文件中分离出人声音频;分别提取人声音频的音频指纹和歌曲音频文件的音频指纹;根据人声音频的音频指纹和歌曲音频文件的音频指纹,确定对待检测音频文件的原唱检测结果。采用本方法,综合考虑了待检测音频文件中的人声音频的音频指纹以及与待检测音频文件对应的歌曲音频文件的音频指纹,避免了仅仅考虑待检测音频文件中的音频指纹,导致确定出的原唱检测结果的准确率较低的缺陷,从而提高了音频文件的原唱检测准确率。

    字幕生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117041683A

    公开(公告)日:2023-11-10

    申请号:CN202310848350.2

    申请日:2023-07-11

    Inventor: 邓锦灿 刘灏 李岩

    Abstract: 本公开关于一种字幕生成方法、装置、电子设备及存储介质,所述方法包括:对多媒体资源中的第一文本进行切分处理,得到第一文本对应的多个第一子文本,确定在多媒体资源中多个第一子文本各自对应的显示时间区间;对多个第一子文本对应的拼接文本进行翻译,得到第二文本,对第二文本进行切分,得到第二文本对应的多个第二子文本;根据多个第一子文本各自对应的显示时间区间,以及多个第一子文本与多个第二子文本之间的对应关系,确定在多媒体资源中多个第二子文本各自对应的显示时间区间;基于多个第二子文本各自对应的显示时间区间,在多媒体资源中嵌入多个第二子文本,生成多媒体资源的翻译字幕。本公开实现了高效地为多媒体资源添加翻译字幕。

Patent Agency Ranking