-
公开(公告)号:CN114005468B
公开(公告)日:2023-04-07
申请号:CN202111045320.5
申请日:2021-09-07
Applicant: 华院计算技术(上海)股份有限公司 , 复旦大学
Abstract: 本发明公开了一种基于全局工作空间的可解释情绪识别方法和系统,所述方法包括:通过多个预训练模型对相应的输入数据进行分析,获得结果编码;基于最大经验风险算法,将结果编码进行竞争,获得全局工作空间的向量;基于可解释的人工智能算法,获得输入数据的后解释数据;将后解释数据输入到相应的模态模型中,获得第二结果编码;根据向量对第二结果编码进行融合,获得融合向量;将融合向量送入全连接层,经归一化后,获得情绪识别结果。基于最大经验风险算法,对预训练模型的输出进行竞争,获得全局工作空间,通过向量确定融合的机制,使情绪识别快而准确;通过可解释的人工智能算法,提高情绪识别过程的可解释性,便于使用者了解机器学习模型决策的依据。
-
公开(公告)号:CN114005468A
公开(公告)日:2022-02-01
申请号:CN202111045320.5
申请日:2021-09-07
Applicant: 华院计算技术(上海)股份有限公司 , 复旦大学
Abstract: 本发明公开了一种基于全局工作空间的可解释情绪识别方法和系统,所述方法包括:通过多个预训练模型对相应的输入数据进行分析,获得结果编码;基于最大经验风险算法,将结果编码进行竞争,获得全局工作空间的向量;基于可解释的人工智能算法,获得输入数据的后解释数据;将后解释数据输入到相应的模态模型中,获得第二结果编码;根据向量对第二结果编码进行融合,获得融合向量;将融合向量送入全连接层,经归一化后,获得情绪识别结果。基于最大经验风险算法,对预训练模型的输出进行竞争,获得全局工作空间,通过向量确定融合的机制,使情绪识别快而准确;通过可解释的人工智能算法,提高情绪识别过程的可解释性,便于使用者了解机器学习模型决策的依据。
-
公开(公告)号:CN120070670A
公开(公告)日:2025-05-30
申请号:CN202510171202.0
申请日:2025-02-17
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本公开提供了一种虚拟换装方法、系统、设备、存储介质和程序产品。所述虚拟换装方法包括:获取用户图像和目标服装图像;对所述用户图像进行衣物分割处理,得到原始服装图像和人体图像;对所述目标服装图像进行分层处理,得到若干张服装子图像;基于所述原始服装图像对所述服装子图像进行变换,得到所述服装子图像对应的目标服装子图像;将所述人体图像和所述目标服装子图像进行融合处理,生成换装后的目标用户图像。本公开通过对服装进行分层处理以保留换装后的服装细节,并进行人体修复使得换装图像中的人物更加真实和自然,从而得到更高质量的换装图像,提高用户体验。
-
公开(公告)号:CN117893579B
公开(公告)日:2025-02-25
申请号:CN202410098078.5
申请日:2024-01-23
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/269 , G06T3/4038 , G06V10/80 , G06T5/50 , G06N3/0464 , G06N3/08 , G06F17/16
Abstract: 一种人物插帧图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:获取第一图像的像素矩阵和第二图像的像素矩阵,并拼接得到第一拼接矩阵,所述第一图像和所述第二图像包含相同的目标人物;根据所述第一拼接矩阵预测得到所述目标人物的人体预测特征,以及对所述第一拼接矩阵进行特征提取,得到图像特征,所述人体预测特征包含所述目标人物在人物插帧图像所属时刻的预测人体信息;对所述目标人物的人体预测特征和所述图像特征进行特征融合,得到融合特征;对所述融合特征进行解码,得到所述人物插帧图像。上述方案有助于获得清晰度更高、质量更佳的人物插帧图像。
-
公开(公告)号:CN118072735A
公开(公告)日:2024-05-24
申请号:CN202410194535.0
申请日:2024-02-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L15/26 , G10L25/51 , G10L21/007
Abstract: 本发明提供一种自动化的音频处理及修复的数据预处理方法及系统,其中方法包括:收集用户音频和对应标准文本;对所述用户音频进行预处理,得到预处理音频、音频识别文本、所述音频识别文本对应的时间戳;将所述用户音频切分成仅含单字的单字音频片段并存入数据库;将所述音频识别文本与所述对应标准文本进行差异比对,通过动态规划计算最小编辑距离的处理路径,得到每个待处理音频的最佳处理方式;对每个所述待处理音频进行有限次循环处理,拼接得到处理后的音频;修复所述处理后的音频,得到修复后的音频。本发明能够极大地减少人力劳动成本与时间成本。
-
公开(公告)号:CN117456598A
公开(公告)日:2024-01-26
申请号:CN202311169519.8
申请日:2023-09-11
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种手势生成方法及装置、计算机可读存储介质、终端,方法包括:确定时序对齐的音频语义特征序列、音频韵律特征序列、手势词特征序列;基于各个特征序列以及预训练模型执行多轮迭代,以确定生成手势特征序列;在每轮迭代中,至少基于第i个手势词特征以及第i个音频语义特征进行特征融合,得到第一融合特征,并基于所述第一融合特征确定目标手势词特征;至少基于第i个手势词特征以及第i个音频韵律特征进行特征融合,得到第二融合特征;至少基于目标手势词特征以及第二融合特征进行拼接处理,得到拼接结果;将所述拼接结果输入所述预训练模型,得到第i轮输出的生成手势特征。上述方案有助于生成能准确表达语义且体现个性差异的手势。
-
公开(公告)号:CN112948360A
公开(公告)日:2021-06-11
申请号:CN202110106296.5
申请日:2021-01-26
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 沈伟林
IPC: G06F16/215 , G06K9/62
Abstract: 本发明公开了一种基于字向量相似度的医疗发票条目名称标准化方法及系统,包括:构建医疗发票条目名称数据集;基于数据集训练医疗文本字向量模型;收集医疗发票条目标准名称数据,构建标准名称数据库;基于医疗文本字向量模型,计算待标准化名称与标准名称数据库中的每个标准名称的字向量相似度;选择相似度最大的标准名称作为待标准化名称的标准名称。本发明以“字”为单位训练医疗文本字向量模型,通过基于字向量相似度的比较提高医疗非标准名称标准化的准确性,实现医疗发票条目名称的标准化。
-
公开(公告)号:CN118379321B
公开(公告)日:2025-05-23
申请号:CN202410476312.3
申请日:2024-04-19
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T7/194
Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。
-
公开(公告)号:CN118430507A
公开(公告)日:2024-08-02
申请号:CN202410667393.5
申请日:2024-05-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种基于改进端到端语音合成模型提升流式语音自然度的方法,包括:获取训练数据,通过MFA模型对所述训练数据进行音频、文本对齐,对所述音频进行随机切分;在端模型模型基础上,添加语义特征提取、音频特征提取和向量嵌入;改写损失函数,得到预训练好的语音合成模型。针对合成的音频在衔接处会出现不自然的停顿、难以直接连接上的问题,本发明会对训练数据、训练模块进行调整,使端到端语音模型的输入变为(context,audio,text),并且在损失函数中添加一个L1loss,控制模型当前音频与上文音频衔接处波形振幅尽可能一致,使模型具备合成能够和上下文音频自然衔接的音频的能力。
-
公开(公告)号:CN118377865A
公开(公告)日:2024-07-23
申请号:CN202410381970.4
申请日:2024-03-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F16/332 , G06F3/01 , G06T13/40 , G10L21/10 , G10L13/02
Abstract: 本发明提供一种基于大模型与深度学习的数字人实时问答方法及系统,其中方法包括以下步骤:生成静默音频;获得用户问题;在获得所述用户问题时,通过大模型将所述用户问题生成对应的问答文本后,转换为若干标准时长的问答音频;在没有获得所述用户问题时,生成静默音频后循环使用;基于所述问答音频、所述静默音频和对应的人脸图像,使用深度模型,计算并渲染出对应的人脸图像帧;对所述问答音频、所述静默音频和所述人脸图像帧进行处理,输入到对应的通道,得到实时渲染的唇型人脸视频;使用实时驱动技术将所述唇型人脸视频推送到用户端。本发明能够实现用户对虚拟现实产品的实时体验,并借助大模型的特性生成更加合理的互动模版,增加产品的灵活性。
-
-
-
-
-
-
-
-
-