-
公开(公告)号:CN118335110A
公开(公告)日:2024-07-12
申请号:CN202410173610.5
申请日:2024-02-06
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种音频识别方法及装置、计算机可读存储介质、电子设备,所述方法包括:获取待识别音频数据;获取所述待识别音频数据对应的标准发音序列;将所述待识别音频数据和所述标准发音序列进行时间对齐,得到多个待识别音频片段以及每个待识别音频片段对应的标准发音单元;基于所述标准发音单元,获取每个待识别音频片段对应的参考音频片段;将每个待识别音频片段和该待识别音频片段对应的参考音频片段输入至判别模型,以得到该待识别音频片段的判别结果,所述判别结果用于指示所述待识别音频片段和所述标准发音单元是否匹配。本申请提供的方案,能够准确地识别出音频中发音不准确的部分。
-
公开(公告)号:CN118055271A
公开(公告)日:2024-05-17
申请号:CN202410133249.3
申请日:2024-01-30
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/24 , H04N21/242 , H04N21/43 , H04N21/442 , H04N21/234 , H04N21/44
Abstract: 本发明公开一种说话人视频音画处理方法及装置,该方法包括:接收待检测说话人视频;依次对所述待检测说话人视频的各片段提取人脸图像特征和语音特征;将每个片段对应的人脸图像特征和语音特征输入预先构建的音画匹配模型,确定所述说话人视频的音画匹配度;根据所述音画匹配度确定所述待检测说话人视频的音画是否同步。利用本发明方案,可以有效地实现说话人视频音画不同步的判别。在确定说话人视频的音画不同步的情况下,还可对所述待检测说话人视频进行修复,实现音画同步,保证说话人视频质量。
-
公开(公告)号:CN118016045A
公开(公告)日:2024-05-10
申请号:CN202410118484.3
申请日:2024-01-26
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L13/027 , G10L13/02 , G10L13/07 , G10L13/10
Abstract: 一种音频获取方法及装置、计算机可读存储介质、电子设备,所述方法包括:采集用户的音频数据;提取所述音频数据的特征信息;根据所述特征信息判断所述音频数据是否为合格音频数据,所述合格音频数据至少与所述用户的语音风格特征相匹配;若所述音频数据为所述合格音频数据,则将所述音频数据添加至所述用户的音频数据集合中,所述用户的音频数据集合用于所述用户的声音复刻。本申请提供的方案,有利于提高声音复刻的效率。
-
公开(公告)号:CN117234369A
公开(公告)日:2023-12-15
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN116385270A
公开(公告)日:2023-07-04
申请号:CN202310412411.0
申请日:2023-04-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T3/40 , G06T3/00 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
-
公开(公告)号:CN116384412A
公开(公告)日:2023-07-04
申请号:CN202310172048.X
申请日:2023-02-24
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/35 , G06F40/30 , G06N3/0455
Abstract: 一种对话内容生成方法及装置、计算机可读存储介质、终端,所述方法包括:获取用户输入的当前话语;获取预设人物的多条偏好数据,所述多条偏好数据用于描述所述预设人物的行为偏好和/或认知偏好;根据所述多条偏好数据、所述当前话语和对话上下文历史,生成输入文本;将所述输入文本输入至预先训练得到的回复生成模型,得到所述回复生成模型输出的所述当前话语的回复内容。通过本申请提供的方案,能够在多轮对话中生成对话风格统一的回复内容。
-
公开(公告)号:CN114550239A
公开(公告)日:2022-05-27
申请号:CN202210103257.4
申请日:2022-01-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种视频生成方法及装置、存储介质、终端,所述方法包括:获取待处理文本;将所述待处理文本转化为音节序列;将所述音节序列输入至视频生成模型,以得到所述视频生成模型输出的虚拟数字对象的视频;其中,所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的,所述第一训练数据包括第一样本音节序列和第一样本图像序列,所述第一样本音节序列是由第一样本文本转化得到的,所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像,且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。通过本发明的方案,可以高效地生成虚拟数字对象的唇形视频。
-
公开(公告)号:CN120031133A
公开(公告)日:2025-05-23
申请号:CN202510140764.9
申请日:2025-02-08
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06N5/04 , G06F40/30 , G06F40/284
Abstract: 本公开提供了一种非公理推理系统中命题逻辑语句的生成方法、系统和设备,该生成方法包括:获取初始文本;基于非公理推理系统中命题逻辑语句的输入要求,得到预设大语言模型的目标提示词;基于所述目标提示词,将所述初始文本输入至所述预设大语言模型,以输出目标命题逻辑语句。本公开通过命题逻辑语句的输入要求得到目标提示词,进而根据目标提示词将初始文本输入至预设大语言模型,以输出目标命题逻辑语句,实现了初始文本到命题逻辑语句的自动化转换,显著降低了用户的使用门槛,大大提高了转换效率,提高了非公理推理系统的推理结果的质量和可靠性,具有良好的扩展性、可维护性和适应性,提升了智能化程度、便捷性、实际应用价值和范围。
-
公开(公告)号:CN119541452A
公开(公告)日:2025-02-28
申请号:CN202411525174.X
申请日:2024-10-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L13/08 , G10L13/047 , G10L15/26
Abstract: 本发明提供一种语音合成模型构建方法、系统、存储介质和程序产品,其中方法包括以下步骤:获取音频、文字、拼音;设置音频编码模块对所述音频提取音频编码,设置文字tokenizer将所述文字转为文字编码,设置拼音编码模块对所述拼音提取拼音编码;设置特征融合模块,将所述音频编码和所述文字编码或所述拼音编码进行融合,得到融合后的特征;将所述融合后的特征通过大语言模型,得到最终的音频向量;采用声学解码器,对所述最终的音频向量进行解码,得到最终的音频;根据损失对语音合成模型进行反向迭代。本发明能够精准控制单字读音的语音合成模型,解决现有语音合成模型中对语音合成中读音精准控制的能力差的问题。
-
公开(公告)号:CN118233697B
公开(公告)日:2025-02-07
申请号:CN202410464923.6
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08
Abstract: 传统的视频数据集切分方法主要依赖于手工标注,这一过程耗时耗力,且难以适应大规模视频数据处理的需求。本发明提供一种切分新闻主播视频数据集的方法、系统及电子设备,包括:获取用户提交的新闻主播视频;对所述新闻主播视频进行快速筛查,得到包含新闻主播和采访观众的人脸数据库;对所述包含新闻主播和采访观众的人脸数据库进行过滤,过滤掉采访观众的人脸数据,得到仅含新闻主播的人脸数据库;根据所述仅含新闻主播的人脸数据库,使用深度模型对所述新闻主播视频进行逐帧筛查,得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。
-
-
-
-
-
-
-
-
-