一种字幕生成模型设计方法、装置、存储介质和程序产品

    公开(公告)号:CN119893015A

    公开(公告)日:2025-04-25

    申请号:CN202510059091.4

    申请日:2025-01-14

    Abstract: 本发明提供一种字幕生成模型设计方法、装置、存储介质和程序产品,涉及自然语言处理技术领域。其中,字幕生成模型设计方法包括:输入一段语音和对应的正确内容,以及字幕单行最大限制字数;使用基于深度学习的人声检测模型进行人声检测;使用预训练的深度模型进行语音识别;使用所述正确内容与识别文字进行匹配、校正,得到字幕文字;根据字幕单行最大限制字数,对字幕文字进行分行、整合,得到最终字幕成果。本发明生成的字幕综合考虑实际的语音停顿及文本语言习惯,字幕与音频呈现更高的匹配度,且字幕文字更加易读;本发明同时考虑了设备限制或人为规定的字幕单行最大限制字数,进一步提高了生成字幕的可读性。

    人脸修复模型的训练方法、人脸修复方法、系统和设备

    公开(公告)号:CN119831882A

    公开(公告)日:2025-04-15

    申请号:CN202411860635.9

    申请日:2024-12-17

    Abstract: 本公开提供了一种人脸修复模型的训练方法、人脸修复方法、系统和设备,该训练方法包括:基于预先训练好的生成对抗网络蒸馏得到人脸修复模块;基于预设卷积神经网络训练得到降噪去除模块;基于通道分割特征变换层连接人脸修复模块和降噪去除模块的潜在特征,以得到目标人脸修复模型。本公开将包括深度可分离调制卷积层的人脸修复模块和包括深度可分离层的降噪去除模块连接,得到目标人脸修复模型,采用了更适合边缘设备的深度可分离卷积,显著地减小了模型的计算量和参数量,降低了计算资源消耗,提高了运行效率,更适用于边缘设备,提升了普适性。

    一种文本生成图像的方法、系统、存储介质和程序产品

    公开(公告)号:CN119478136A

    公开(公告)日:2025-02-18

    申请号:CN202411581532.9

    申请日:2024-11-06

    Abstract: 本发明提供一种文本生成图像的方法、系统、存储介质和程序产品,方法包括:对给定的待形变图像和给定的训练目标图像进行编码;对给定的文本输入进行编码;利用图像关键点提取方法,获得待形变图像和训练目标图像的图像关键点集合;利用薄板样条差值方法,获得图像关键点的变化方向;将图像关键点的变化方向和文本编码,拼接到待形变图像的编码,进行扩散模型的加噪操作;利用扩散模型的去噪操作,获得去噪后的图片编码;将去噪后的图片编码,利用可训练的解码器进行图像生成;利用生成的图像和给定的训练目标图像组成损失函数,训练解码器网络,获得薄板样条差值引导的文生图模型。本发明能够在保持位置合理性的情况下生成丰富的图像。

    一种视频未来事件预测方法、装置、存储介质和程序产品

    公开(公告)号:CN118823635A

    公开(公告)日:2024-10-22

    申请号:CN202410825520.X

    申请日:2024-06-24

    Abstract: 本发明提供一种视频未来事件预测方法、装置、存储介质和程序产品,其中方法包括以下步骤:输入视频和视频内容描述;将视频拆分为视频片段;从视频片段中过滤出视频关键片段和视频关键帧;采用因果注意力机制,从视频关键片段和视频关键帧中提取影响未来事件的信息;构建思维推理链,引导模型;通过语言生成模型解码,预测视频未来事件。本发明克服了在处理复杂的、多变的现实世界场景时的局限性,增强了对复杂场景和细微变化的理解能力,实现了对复杂视频数据的深度分析和未来事件的准确预测,提高了在未来事件预测方面的准确性和可靠性,能够基于当前数据预测长期趋势和潜在风险,为决策提供更全面的支持。

    一种基于大模型与深度学习的数字人实时问答方法及系统

    公开(公告)号:CN118377865A

    公开(公告)日:2024-07-23

    申请号:CN202410381970.4

    申请日:2024-03-29

    Abstract: 本发明提供一种基于大模型与深度学习的数字人实时问答方法及系统,其中方法包括以下步骤:生成静默音频;获得用户问题;在获得所述用户问题时,通过大模型将所述用户问题生成对应的问答文本后,转换为若干标准时长的问答音频;在没有获得所述用户问题时,生成静默音频后循环使用;基于所述问答音频、所述静默音频和对应的人脸图像,使用深度模型,计算并渲染出对应的人脸图像帧;对所述问答音频、所述静默音频和所述人脸图像帧进行处理,输入到对应的通道,得到实时渲染的唇型人脸视频;使用实时驱动技术将所述唇型人脸视频推送到用户端。本发明能够实现用户对虚拟现实产品的实时体验,并借助大模型的特性生成更加合理的互动模版,增加产品的灵活性。

    图像编码方法、系统、设备及介质

    公开(公告)号:CN116847091B

    公开(公告)日:2024-04-26

    申请号:CN202310882709.8

    申请日:2023-07-18

    Abstract: 本公开提供了一种图像编码方法、系统、设备及介质,所述方法包括:获取待处理的图像;将所述图像划分为多个区域块,并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布;确定所述图像的图像视觉信息及图像语义信息,所述图像视觉信息根据每个所述区域块的区域视觉信息生成,所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成;根据所述图像语义信息及所述图像视觉信息对图像进行编码,得到图像编码。本公开能够使得图像编码更丰富、更准确,能够扩展于各种图像任务重,提升编码在下游的应用率;另外,通过区域块确定图像视觉信息和图像语义信息,能够提升图像编码的准确率。

    人脸动画生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN116664731B

    公开(公告)日:2024-03-29

    申请号:CN202310753806.7

    申请日:2023-06-21

    Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。

    数字人交互方法及系统、计算机可读存储介质、数字人设备

    公开(公告)号:CN117234369A

    公开(公告)日:2023-12-15

    申请号:CN202311057771.X

    申请日:2023-08-21

    Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。

    一种基于视听语音分离的说话人视觉激活解释方法及系统

    公开(公告)号:CN116580720A

    公开(公告)日:2023-08-11

    申请号:CN202310187677.X

    申请日:2023-03-01

    Inventor: 胡致远 沈旭立

    Abstract: 本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统,方法包括:由说话人视频片段抽取说话人音频片段,与噪声音频片段混合得到混合语音片段;基于残差神经网络提取唇部运动特征和面部特征,基于U‑net进行音频特征提取,并对齐构成多模态深度特征;确定视听语音分离模型的模型组件和损失函数并完成训练;解码视频流信息并输入部署的视听语音分离模型,并根据输出的预测频谱图计算得分函数,根据得分函数计算视觉模态不同层的贡献度,通过热力图生成视觉模态激活图。通过本发明的技术方案,创新性地提出了适用于视听语音分离特殊输出的可视化解释方法,得到了超过目前最先进水平的分离效果,能够在更复杂条件下稳定工作。

Patent Agency Ranking