-
公开(公告)号:CN116385270B
公开(公告)日:2024-08-16
申请号:CN202310412411.0
申请日:2023-04-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T3/4007 , G06T3/4023 , G06T3/4046 , G06T3/04 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
-
公开(公告)号:CN118332068A
公开(公告)日:2024-07-12
申请号:CN202410363601.2
申请日:2024-03-28
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本发明公开了一种数据管理系统的构建方法、使用方法、设备、介质及产品,涉及自然语言处理领域。该方法应用于数据管理系统,系统包括数据存储架构模块、知识库模块和历史对话检索模块,方法包括基于初始文本信息构建数据存储架构模块,初始文本信息为文档结构化生成的片段或问答,基于信息抽取模型将初始文本信息进行标签化处理,构建知识库模块,基于双层分类模型对与用户产生的对话进行分类,并将分类后的对话进行存储生成历史对话库,与用户产生的对话基于用户与初始文本信息交互形成,历史对话检索模块基于历史对话库构建。本发明中将历史对话进行分类存储,不仅避免直接存储干扰信息,还能结合上下文,将多轮对话中的信息完整全面的保存。
-
公开(公告)号:CN118297107A
公开(公告)日:2024-07-05
申请号:CN202410390211.4
申请日:2024-04-02
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种大语言模型的处理方法、系统、设备、介质及程序产品,处理方法包括:获取数据集;根据数据集生成伪标签数据;根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型。本公开根据获取的数据集生成伪标签数据;再根据伪标签数据获取指令微调数据;利用指令微调数据对原始大语言模型进行指令微调,得到新的大语言模型,实现了基于伪标签数据对大语言模型进行指令微调,有效的缓解了大语言模型灾难性遗忘的问题,严格遵守了连续学习的形式,降低了计算的复杂度,提高了计算的效率和准确率。
-
公开(公告)号:CN118280370A
公开(公告)日:2024-07-02
申请号:CN202410465020.X
申请日:2024-04-17
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本申请提供一种通过语音实时交互的数字人生成方法及系统。技术方案包括如下步骤:首先,输入实时交互的音频;其次,采用流式语音识别模型进行音频识别;然后,将识别到的文字输入到大模型,大模型流式输出相应结果;之后,将结果进行处理后输入语音合成模型,进行半流式输出;最后,将输出的语音输入到相应的渲染模型,得到最后相应的互动结果。本申请技术方案利用流式技术,并结合相应的文本算法,能实现流畅的语音实时交互数字人。
-
公开(公告)号:CN114661861B
公开(公告)日:2024-06-21
申请号:CN202210170758.4
申请日:2022-02-23
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种文本匹配方法及装置、存储介质、终端,所述方法包括:获取第一文本;构建所述第一文本的要素图;提取所述第一文本的语义信息;获取第二文本的语义信息和结构信息,所述第二文本的结构信息包括:所述第二文本的要素图和/或图嵌入特征信息,所述图嵌入特征信息是根据所述要素图计算得到的;根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息,确定所述第一文本和所述第二文本的匹配结果。通过本发明提供的方案,能够提高文本匹配的准确度。
-
公开(公告)号:CN118196474A
公开(公告)日:2024-06-14
申请号:CN202410133229.6
申请日:2024-01-30
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06V10/764 , G06V10/80 , G06V10/28 , G06T7/00
Abstract: 本申请提供了一种图像缺陷分类方法及装置、存储介质、计算设备,该图像缺陷分类方法包括:获取原始图像,并将原始图像划分为N个区域块,原始图像中部分区域块具有缺陷,N为正整数;提取N个区域块的第一视觉特征;对各个区域块的第一视觉特征进行编码,以得到各个区域块的第二视觉特征;至少根据各个区域块的第二视觉特征计算各个区域块对应的目标权重;根据各个区域块的第二视觉特征以及对应的目标权重进行特征融合,以获得融合特征;根据融合特征计算原始图像的缺陷类别。本申请提供了一种提升缺陷图像的缺陷分类准确性的方案。
-
公开(公告)号:CN118113845A
公开(公告)日:2024-05-31
申请号:CN202410269522.5
申请日:2024-03-08
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F16/35 , G06F18/214
Abstract: 本发明提供一种生成式大语言模型选择题评测的方法及系统,其中方法包括以下步骤:获取选择题;对所述选择题进行重构和扩充,得到扩充后的选择题;对各个所述扩充后的选择题进行大模型回答文本匹配和大模型token约束回答,得到大模型答案;对所述大模型答案进行综合评分。本发明能够更全面更有效地检验大模型是否真正理解并拥有解答问题的能力,使得能力评估的分数更为客观准确,对由于模型输出内容不符合规范或者模型输出内容无法被正则模板匹配命中的问题进行补偿,有效地避免大模型直接回答问题时需要二次解析的情况,有效弥补了模型缺乏各个选项之间信息交互的问题,并且支持多选题评测。
-
公开(公告)号:CN118052911A
公开(公告)日:2024-05-17
申请号:CN202410281747.2
申请日:2024-03-12
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/00 , G06N3/0475
Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。
-
公开(公告)号:CN118035409A
公开(公告)日:2024-05-14
申请号:CN202410084376.9
申请日:2024-01-19
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本申请提供了一种问答方法及装置、存储介质、计算设备,该问答方法包括:获取问题,并提取所述问题的关键词,以得到至少一个主题实体;根据所述至少一个主题实体在知识图谱中搜索相关的候选关系和候选实体,形成至少一个候选路径;将所述至少一个候选路径输入至大语言模型,以供所述大语言模型生成所述问题的答案。本申请提供了一种提升大语言模型的问答准确率的方案。
-
公开(公告)号:CN117372553B
公开(公告)日:2024-05-10
申请号:CN202311085684.5
申请日:2023-08-25
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,方法包括:确定人脸图像生成模型,包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入图像编码子模型,得到人脸图像编码特征;将音频编码特征输入音频映射子模型,得到权重向量;采用权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,多个记忆口型编码特征对应于不同类型的口型;将音频编码特征、人脸图像编码特征以及融合口型特征,输入解码子模型,得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。
-
-
-
-
-
-
-
-
-