人脸情绪图像生成方法及装置、可读存储介质、终端

    公开(公告)号:CN117218224B

    公开(公告)日:2024-09-03

    申请号:CN202311057116.4

    申请日:2023-08-21

    Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端,所述方法包括:对目标情绪文本以及输入音频分别进行编码,以得到情绪特征向量和语音特征向量序列;将情绪特征向量分别与每个语音特征向量进行融合,得到融合特征向量序列;将融合特征向量序列输入预训练的表情预测模型,以得到第一人脸表情向量序列;基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染,以得到渲染人脸图像序列,所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的;将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型,以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

    视频生成方法及装置
    32.
    发明公开

    公开(公告)号:CN118158488A

    公开(公告)日:2024-06-07

    申请号:CN202410138544.8

    申请日:2024-01-31

    Abstract: 本发明公开一种视频生成方法及装置,该方法包括:接收用户提交的视频文件和音频文件,视频文件的所有视频帧包含人脸图像;分别对视频文件和音频文件按照设定长度进行切分,得到多个一一对应的原始视频片段和原始音频片段;获取与各原始音频片段对应的音频特征;将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染,得到渲染后的视频图像;将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案,可以快速高效地生成虚拟人脸视频,提升用户对虚拟现实产品的实时体验。

    一种提升扩散模型图片生成效果的方法

    公开(公告)号:CN116863034B

    公开(公告)日:2024-05-14

    申请号:CN202310850135.6

    申请日:2023-07-11

    Inventor: 金致宇 沈旭立

    Abstract: 本发明提供一种提升扩散模型图片生成效果的方法,涉及计算机技术领域,包括:给定预训练的文本编码器并输入文字描述;将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子,得到新的文本编码器;根据文字描述及新的文本编码器得到文本编码,利用扩散模型获得文本编码的编码文本向量;基于编码文本向量,通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子,在文本生成图像领域中自适应地调节尺度因子,从而实现自然的高保真的生成图片,最终提升扩散模型生成效果。

    图像编码方法、系统、设备及介质

    公开(公告)号:CN116847091A

    公开(公告)日:2023-10-03

    申请号:CN202310882709.8

    申请日:2023-07-18

    Abstract: 本公开提供了一种图像编码方法、系统、设备及介质,所述方法包括:获取待处理的图像;将所述图像划分为多个区域块,并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布;确定所述图像的图像视觉信息及图像语义信息,所述图像视觉信息根据每个所述区域块的区域视觉信息生成,所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成;根据所述图像语义信息及所述图像视觉信息对图像进行编码,得到图像编码。本公开能够使得图像编码更丰富、更准确,能够扩展于各种图像任务重,提升编码在下游的应用率;另外,通过区域块确定图像视觉信息和图像语义信息,能够提升图像编码的准确率。

    数字人生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN116129004B

    公开(公告)日:2023-09-15

    申请号:CN202310135294.8

    申请日:2023-02-17

    Inventor: 沈旭立

    Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。采用上述方案,可以生成带有情绪的数字人,且实现数字人的情绪可编辑化。

    数字人生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN116129004A

    公开(公告)日:2023-05-16

    申请号:CN202310135294.8

    申请日:2023-02-17

    Inventor: 沈旭立

    Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。采用上述方案,可以生成带有情绪的数字人,且实现数字人的情绪可编辑化。

    一种视觉Transformer模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN118840414B

    公开(公告)日:2025-04-29

    申请号:CN202411038198.2

    申请日:2024-07-30

    Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。

    一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质

    公开(公告)号:CN118052911B

    公开(公告)日:2025-02-18

    申请号:CN202410281747.2

    申请日:2024-03-12

    Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。

Patent Agency Ranking