Patent search ap:("华院计算技术(上海)股份有限公司" OR "复旦大学") AND inv:"沈旭立" Page 4

31.

发明授权
人脸情绪图像生成方法及装置、可读存储介质、终端有权

公开(公告)号：CN117218224B

公开(公告)日：2024-09-03

申请号：CN202311057116.4

申请日：2023-08-21

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王晓梅 , 沈旭立 , 虞钉钉 , 曹培

IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06V10/774 , G06V10/771

Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端，所述方法包括：对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；将情绪特征向量分别与每个语音特征向量进行融合，得到融合特征向量序列；将融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

32.

发明公开
视频生成方法及装置审中-实审

公开(公告)号：CN118158488A

公开(公告)日：2024-06-07

申请号：CN202410138544.8

申请日：2024-01-31

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 曹培 , 虞钉钉 , 王晓梅 , 沈旭立 , 罗粤清 , 徐清

IPC: H04N21/81 , H04N21/233 , H04N21/234 , H04N21/25

Abstract: 本发明公开一种视频生成方法及装置，该方法包括：接收用户提交的视频文件和音频文件，视频文件的所有视频帧包含人脸图像；分别对视频文件和音频文件按照设定长度进行切分，得到多个一一对应的原始视频片段和原始音频片段；获取与各原始音频片段对应的音频特征；将原始视频片段和对应的音频特征两两一组输入深度学习模型进行人像口型渲染，得到渲染后的视频图像；将视频图像与所述原始音频片段进行时间对齐后输出。利用本发明方案，可以快速高效地生成虚拟人脸视频，提升用户对虚拟现实产品的实时体验。

33.

发明授权
一种提升扩散模型图片生成效果的方法有权

公开(公告)号：CN116863034B

公开(公告)日：2024-05-14

申请号：CN202310850135.6

申请日：2023-07-11

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 金致宇 , 沈旭立

IPC: G06T11/60 , G06T11/00 , G06T9/00

Abstract: 本发明提供一种提升扩散模型图片生成效果的方法，涉及计算机技术领域，包括：给定预训练的文本编码器并输入文字描述；将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；根据文字描述及新的文本编码器得到文本编码，利用扩散模型获得文本编码的编码文本向量；基于编码文本向量，通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子，在文本生成图像领域中自适应地调节尺度因子，从而实现自然的高保真的生成图片，最终提升扩散模型生成效果。

34.

发明公开
图像编码方法、系统、设备及介质审中-实审

公开(公告)号：CN116847091A

公开(公告)日：2023-10-03

申请号：CN202310882709.8

申请日：2023-07-18

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王晓梅 , 沈旭立 , 虞钉钉 , 曹培

IPC: H04N19/169 , H04N19/119 , H04N19/176 , H04N19/154

Abstract: 本公开提供了一种图像编码方法、系统、设备及介质，所述方法包括：获取待处理的图像；将所述图像划分为多个区域块，并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布；确定所述图像的图像视觉信息及图像语义信息，所述图像视觉信息根据每个所述区域块的区域视觉信息生成，所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成；根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码。本公开能够使得图像编码更丰富、更准确，能够扩展于各种图像任务重，提升编码在下游的应用率；另外，通过区域块确定图像视觉信息和图像语义信息，能够提升图像编码的准确率。

35.

发明授权
数字人生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN116129004B

公开(公告)日：2023-09-15

申请号：CN202310135294.8

申请日：2023-02-17

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈旭立

IPC: G06T13/20 , G10L25/57 , G06T13/40 , G06T3/40

Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。采用上述方案，可以生成带有情绪的数字人，且实现数字人的情绪可编辑化。

36.

发明公开
数字人生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN116129004A

公开(公告)日：2023-05-16

申请号：CN202310135294.8

申请日：2023-02-17

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈旭立

IPC: G06T13/20 , G10L25/57 , G06T13/40 , G06T3/40

Abstract: 一种数字人生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。采用上述方案，可以生成带有情绪的数字人，且实现数字人的情绪可编辑化。

37.

发明授权
一种视觉Transformer模型设计方法、装置、存储介质和程序产品有权

公开(公告)号：CN118840414B

公开(公告)日：2025-04-29

申请号：CN202411038198.2

申请日：2024-07-30

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王晓梅 , 沈旭立 , 虞钉钉 , 蔡华 , 徐清

IPC: G06T7/62 , G06T7/11

Abstract: 本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品，其中，方法包括：设定最小形变图像的大小和最小区域块的大小；根据原图的宽高，得到原图的长边与短边之比取整的值，确定形变目标图像的一边长和待划分区域块的一边长；根据原图的长边与短边之比取整的值，计算出形变目标图像的宽高和待划分区域块的宽高；根据形变目标图像的宽高和待划分区域块的宽高，对图像进行形变和划分，得到若干区域块，送入Transformer结构中。将每个区域块划分成若干方块，对所述若干方块进行编码，得到每个区域块特征；整合所有的区域块特征，送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。

38.

发明授权
一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质有权

公开(公告)号：CN118052911B

公开(公告)日：2025-02-18

申请号：CN202410281747.2

申请日：2024-03-12

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 曹培 , 沈旭立 , 罗粤清

IPC: G06T13/00 , G06N3/0475

Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤：获取音频和相应的包含手部的人物图像；将所述音频输入变换网络得到相应的手部变换参数；将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片；将所述手部变换参数带入到所述手部分层图像，得到相应的手部变换图像；将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题，本发明采用手部变换来刻画手部运动，并通过深度网络，有效、准确地生成带手部动作的图像。

39.

发明授权
一种切分新闻主播视频数据集的方法、系统及电子设备有权

公开(公告)号：CN118233697B

公开(公告)日：2025-02-07

申请号：CN202410464923.6

申请日：2024-04-17

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 曹培 , 王晓梅 , 虞钉钉 , 沈旭立 , 罗粤清 , 周邦健 , 沈伟林 , 徐清

IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08

Abstract: 传统的视频数据集切分方法主要依赖于手工标注，这一过程耗时耗力，且难以适应大规模视频数据处理的需求。本发明提供一种切分新闻主播视频数据集的方法、系统及电子设备，包括：获取用户提交的新闻主播视频；对所述新闻主播视频进行快速筛查，得到包含新闻主播和采访观众的人脸数据库；对所述包含新闻主播和采访观众的人脸数据库进行过滤，过滤掉采访观众的人脸数据，得到仅含新闻主播的人脸数据库；根据所述仅含新闻主播的人脸数据库，使用深度模型对所述新闻主播视频进行逐帧筛查，得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。

40.

发明公开
一种带表情的数字人生成方法、系统、存储介质和程序产品审中-实审

公开(公告)号：CN119313789A

公开(公告)日：2025-01-14

申请号：CN202411304862.3

申请日：2024-09-18

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 沈旭立 , 曹培 , 罗粤清 , 周邦健

IPC: G06T13/40 , G06F18/2431 , G06F18/21 , G06N3/0464 , G06N3/08 , G10L25/63 , G10L25/57

Abstract: 本发明提供一种带表情的数字人生成方法、系统、存储介质和程序产品，其中方法包括以下步骤：输入音频和相应图片；将音频输入到音频情绪提取网络提取相应的情绪类别；根据情绪类别从表情模板中抽取对应的模板；将模板和图片一起输入到生成网络生成相应的带表情基础图片；将基础图片经过处理以后，提取图像特征，同时对音频进行音频特征提取；将图像特征和音频特征输入到解码网络得到带表情的图片。本发明提供一种带表情的数字人生成方法、系统、存储介质和程序产品，能够通过引入相应的音频情绪提取和表情模板，实现对于带表情的，并且是多种表情变化的数字人生成任务。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification