多模态图表问答大模型构建方法、电子设备和存储介质

    公开(公告)号:CN119692472A

    公开(公告)日:2025-03-25

    申请号:CN202411760334.9

    申请日:2024-12-03

    Abstract: 本发明提供了一种多模态图表问答大模型构建方法、电子设备和存储介质,包括:基于第一样本数据集对图文对齐模型进行训练,得到训练好的图文特征对齐模型;其中,第一样本数据集中包括图像样本和对应的文本内容;基于第二样本数据集对具有训练好的图文特征对齐模型的多模态图表问答大模型进行训练,得到训练后的多模态图表问答大模型,作为最终的多模态图表问答大模型,第二样本数据集包括图表样本的上下文表示信息、图像和问答对数据。本发明得到的多模态图表问答大模型相对于现有的多模态图表问答大模型的图表问答能力能够得到进一步提升,且具有较强的中文理解能力。

    实时问答虚拟人视频生成方法、电子设备及存储介质

    公开(公告)号:CN116996630A

    公开(公告)日:2023-11-03

    申请号:CN202310964008.9

    申请日:2023-08-02

    Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质,方法包括:基于待播报信息获取对应的场景视频;对音频文件进行特征提取,得到对应的音频特征;基于场景视频和音频特征,生成口型与音频特征相匹配的场景视频,作为初始人脸驱动视频;基于场景视频中的目标图像以及初始驱动视频,获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征;基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征,得到目标人脸驱动视频;利用目标人脸驱动视频中的人脸替换场景视频中的人脸,得到虚拟人视频;将虚拟人视频和音频文件进行合成,得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

    实时问答虚拟人视频生成方法、电子设备及存储介质

    公开(公告)号:CN116996630B

    公开(公告)日:2024-07-12

    申请号:CN202310964008.9

    申请日:2023-08-02

    Abstract: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质,方法包括:基于待播报信息获取对应的场景视频;对音频文件进行特征提取,得到对应的音频特征;基于场景视频和音频特征,生成口型与音频特征相匹配的场景视频,作为初始人脸驱动视频;基于场景视频中的目标图像以及初始驱动视频,获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征;基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征,得到目标人脸驱动视频;利用目标人脸驱动视频中的人脸替换场景视频中的人脸,得到虚拟人视频;将虚拟人视频和音频文件进行合成,得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。

Patent Agency Ranking