-
公开(公告)号:CN119888426A
公开(公告)日:2025-04-25
申请号:CN202411964767.6
申请日:2024-12-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明提出一种唇形合成模型设计方法、装置、存储介质和程序产品,涉及计算机视觉技术领域。其中,唇形合成模型设计方法包括:数据收集及预处理,获得原面部图、原情绪标签及音频特征;使用生成器获得恢复面部图及恢复情绪标签;使用判别器对原面部图与恢复面部图进行对抗训练;使用图片重建损失函数、感知损失函数、对抗损失函数、情绪损失函数进行反向迭代;针对待生成视频进行模型微调训练。本发明提高了唇形合成图像生成的整体精确性和图像质量,避免了相关生成瑕疵和错误的出现。
-
公开(公告)号:CN118379490A
公开(公告)日:2024-07-23
申请号:CN202410317452.6
申请日:2024-03-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/26 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 一种图像分割方法及装置、计算机可读存储介质、终端,所述方法包括:获取待处理图像;对待处理图像进行预处理;将待处理图像输入至图像分割模型,图像分割模型用于根据预处理的结果对待处理图像进行分割,得到待处理图像的图像分割结果,图像分割结果包括至少一个区域,同一区域中的像素点的类别相同;其中,根据预处理的结果对待处理图像进行分割包括:在使用第一卷积核进行卷积之前执行第一补零操作,在使用第二卷积核进行卷积之前执行第二补零操作,其中,第一卷积核和第二卷积核为属于图像分割模型中的同一个卷积层的不同卷积核,第一补零操作的类型和第二补零操作的类型不同。本申请提供的方案有利于提高图像分割的准确性。
-
公开(公告)号:CN118379321A
公开(公告)日:2024-07-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN118233697A
公开(公告)日:2024-06-21
申请号:CN202410464923.6
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08
Abstract: 传统的视频数据集切分方法主要依赖于手工标注,这一过程耗时耗力,且难以适应大规模视频数据处理的需求。本发明提供一种基于深度学习的自动切分新闻主播视频数据集的方法、系统及电子设备,包括:获取用户提交的新闻视频;对所述新闻视频进行第一次筛查,得到新闻主播视频和采访观众视频;对所述新闻主播视频和所述采访观众视频进行第二次筛查,过滤所述采访观众视频,得到过滤后的新闻主播视频;使用深度模型对所述过滤后的新闻主播视频进行逐帧筛查,得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。
-
公开(公告)号:CN116071472B
公开(公告)日:2024-04-30
申请号:CN202310099764.X
申请日:2023-02-08
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06T13/20 , G06T3/4038 , G06V40/16 , G06V10/80 , G06V10/77 , G06N3/0464 , G06N3/08
Abstract: 一种图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:根据输入的音频信息,得到模板图像,所述模板图像用于表征和所述音频信息相适配的脸部姿态,所述脸部姿态至少包括唇形;对所述音频信息进行特征提取,得到第一特征信息;对图像信息进行特征提取,得到第二特征信息,所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到;对第三特征信息进行解码处理,生成目标脸部图像,其中,所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。
-
公开(公告)号:CN117520762A
公开(公告)日:2024-02-06
申请号:CN202311260150.1
申请日:2023-09-26
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。
-
公开(公告)号:CN117152283A
公开(公告)日:2023-12-01
申请号:CN202310944172.3
申请日:2023-07-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30
Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。
-
公开(公告)号:CN112040074B
公开(公告)日:2022-07-26
申请号:CN202010857017.4
申请日:2020-08-24
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 沈伟林
Abstract: 本发明公开了一种基于语音声学信息的电话客服人员职业倦怠检测方法,其中,对客服语音进行基频提取,获取基频动态范围,如果低于设定值,则判断为职业倦怠,否则,不判断为职业倦怠。本发明克服了传统人工抽检方法不能进行全量检查,覆盖范围小,容易检查不到位的缺点,通过对客服语音的基频进行提取,获取基频动态范围,与设定值进行对比,来判断是否存在职业倦怠的情况。本发明实现了电话客服人员职业倦怠的自动化全量检测,从而进行相应的干预,具有简单高效的优点。与传统人工抽检方法相比,它具有积极的技术效果为:可以每日对客服人员职业倦怠进行分析和统计,对出现职业倦怠的客服人员及时进行疏导,避免出现职业倦怠给企业带来负面影响。
-
-
-
-
-
-
-