-
公开(公告)号:CN117152283B
公开(公告)日:2025-02-11
申请号:CN202310944172.3
申请日:2023-07-28
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30
Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及AIGC技术领域,包括:输入驱动音频和部分人脸图像;对驱动音频和部分人脸图像分别进行特征提取,得到音频特征和图像特征;将音频特征和图像特征输入到扩散模型,生成完整图像特征;将扩散模型生成的完整图像特征输入解码器,得到完整人脸图像。本发明充分利用扩散模型以及特征融合,实现准确清晰地生成和音频相对应的人脸图像。
-
公开(公告)号:CN118227013A
公开(公告)日:2024-06-21
申请号:CN202410238937.6
申请日:2024-03-01
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0484 , G06F3/01 , G06V40/16 , G06V40/20
Abstract: 一种数字人眼睛注视方向的跟随调整方法及装置、计算机可读存储介质、终端,所述方法包括:采集目标用户的面部图像数据;基于所述面部图像数据估计得到第一方向,其中,所述第一方向为所述目标用户的眼睛的注视方向;响应于检测到所述第一方向朝向所述数字人,控制所述数字人的眼睛的注视方向从初始方向调整至第二方向,其中,所述第二方向朝向所述目标用户的眼睛。通过本公开方案能够实现数字人与用户之间的眼神交流,改善交互过程中的亲密感和真实感,有利于提升数字人的逼真度,优化用户体验。
-
公开(公告)号:CN117234369B
公开(公告)日:2024-06-21
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN118151766A
公开(公告)日:2024-06-07
申请号:CN202410058013.8
申请日:2024-01-15
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明公开了一种粤语拼音的预测方法、系统、设备及介质,包括:获取待预测粤语的目标文本和任一目标区域;将目标文本和目标区域输入预先构建的粤语拼音预测模型,预测粤语拼音;粤语拼音预测模型包括基底模型和辅助模块,基底模型用于预测目标文本在第一粤语区域的粤语拼音,辅助模块参与基底模型预测目标文本在其他粤语区域的粤语拼音。本发明在不破坏基底模型对第一粤语区域的拼音预测功能的前提下,引入辅助模块共同迁移学习生成粤语拼音预测模型,实现对粤语跨片区的拼音预测;避免根据粤语词典进行粤语文本的拼音预测准确性低的问题;避免部分片区粤语次级方言总使用人数较少,导致获取粤语次级方言拼音成本高的缺陷。
-
公开(公告)号:CN118134333A
公开(公告)日:2024-06-04
申请号:CN202410304188.2
申请日:2024-03-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06Q10/0639 , G06Q50/20 , G06V10/25
Abstract: 本公开提供了一种用户学习状态的评估方法、系统、设备及介质。评估方法包括:获取用户的注视点落到课程内容中的兴趣区的注视时间;根据用户的注视点落在兴趣区的注视时间、各兴趣区的注视权重以及各兴趣区对应的时间段确定用户的学习状态是否符合学习要求。通过上述方法,不同时间段的兴趣区对应的注视权重,根据用户的注视点落在兴趣区的注视时间、各兴趣区的注视权重以及各兴趣区对应的时间段,可准确确定用户的学习状态是否符合学习要求。
-
公开(公告)号:CN117275526A
公开(公告)日:2023-12-22
申请号:CN202311057123.4
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本申请提供了一种语音合成系统的评估方法及装置、存储介质、计算设备,所述语音合成系统用于生成还原目标音色的合成语音,所述评估方法包括:获取具有目标音色的用户语音以及至少一段合成语音;提取用户语音的第一声纹特征以及至少一段合成语音的第二声纹特征;计算第一声纹特征与第二声纹特征的相似度,以得到评估相似度;根据评估相似度对语音合成系统进行评估。本申请能够自动客观准确地评估合成语音与目标语音的语音相似度。
-
公开(公告)号:CN116664746A
公开(公告)日:2023-08-29
申请号:CN202310620674.0
申请日:2023-05-29
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人脸重建方法及装置、计算机可读存储介质、终端,所述方法包括:分别对原始人脸图像及其深度图像进行特征提取,得到人脸特征矩阵以及深度图特征矩阵;对所述人脸特征矩阵以及所述深度图特征矩阵进行拼接处理,得到融合特征矩阵;将所述融合特征矩阵输入预测模型,得到优化形状矩阵和优化表情矩阵;基于所述优化形状矩阵和所述优化表情矩阵,对初始化纹理矩阵和初始化光照控制矩阵进行迭代优化,以确定优化纹理矩阵和优化光照控制矩阵。采用上述方案有助于改进人脸重建的效果。
-
公开(公告)号:CN116580263A
公开(公告)日:2023-08-11
申请号:CN202310562166.1
申请日:2023-05-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/774 , G06V10/44 , G06V10/80 , G06V10/776 , G06T13/40 , G06T13/20 , G06N3/0464
Abstract: 本发明公开了一种图像处理模型训练、处理方法、系统、设备及其介质。该模型的训练方法包括:获取原始三维面部数据和若干样本音频数据;提取原始三维面部数据的样本面部特征;获取样本音频数据的样本音频特征;基于样本音频特征调整样本面部特征,以得到对应的样本三维面部数据;以每组的样本面部特征与样本音频特征作为输入,对应的样本三维面部数据作为输出,对预设网络进行训练,以得到图像处理模型。通过图卷积神经网络获取面部特征和多层次处理得到音频特征,通过卷积神经网络的训练,得到的图像处理模型具有更高的精度、泛用性和鲁棒性。计算融合特征的融合损失和样本三维面部数据的生成损失,提高模型训练的效率和准确性。
-
公开(公告)号:CN116071472A
公开(公告)日:2023-05-05
申请号:CN202310099764.X
申请日:2023-02-08
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:根据输入的音频信息,得到模板图像,所述模板图像用于表征和所述音频信息相适配的脸部姿态,所述脸部姿态至少包括唇形;对所述音频信息进行特征提取,得到第一特征信息;对图像信息进行特征提取,得到第二特征信息,所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到;对第三特征信息进行解码处理,生成目标脸部图像,其中,所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。
-
公开(公告)号:CN120018042A
公开(公告)日:2025-05-16
申请号:CN202510145075.7
申请日:2025-02-10
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04R25/00
Abstract: 本发明提供一种声音信号转换方法、系统、装置和程序产品,涉及辅助听力技术领域。其中,声音信号转换方法包括:采用声音采集模块监听周围环境;使用声音识别与分类模块进行声音事件识别;使用信号转换模块将识别到的声音事件转换为感官信号指令;使用信号反馈模块执行感官信号指令,产生感官信号,并传递给用户。本发明提出了一种基于感官反馈的辅助听力解决方案,尤其是利用触觉这一更为直接的感官通道,采用便携装置,配合高灵敏度的声音采集模块和快速的声音识别算法,使聋人在不同的场景下都能迅速感知外接的声音信息,提高了信息反馈的实时性、准确性和可辨识度,可适用于各种场景。
-
-
-
-
-
-
-
-
-