一种多模态大模型训练策略确定方法、电子设备及介质

    公开(公告)号:CN117407754A

    公开(公告)日:2024-01-16

    申请号:CN202311415357.1

    申请日:2023-10-27

    Abstract: 本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质,涉及多模态大模型训练策略确定领域,所述方法包括:获取初始多模态大模型对应的状态列表A;使用预设的一阶段训练策略,对初始多模态大模型进行训练,以得到第一中间多模态大模型列表B;使用预设的两阶段训练策略,分别对处于A中每一状态的初始多模态大模型进行训练,以得到第二中间多模态大模型列表C;获取B对应的第一性能参数列表α=(α1,α2,α3)以及C对应的第二性能参数列表β=(β1,β2,β3);若α1<β1、α2<β2且α3<β3,则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略;本发明能够达到确定出最佳的模型训练策略的目的。

    面向大语言模型的词向量生成方法、电子设备及存储介质

    公开(公告)号:CN117113990A

    公开(公告)日:2023-11-24

    申请号:CN202311374453.6

    申请日:2023-10-23

    Abstract: 本发明涉及计算机技术应用领域,提供了一种面向大语言模型的词向量生成方法、电子设备及存储介质,包括:获取待分词的文本,作为目标文本;对目标文本进行分词处理,得到对应的分词集S;基于预设词向量基准表T,获取每个词在每个嵌入矩阵的特征向量;基于预设滑动窗口长度d,将S划分为多个语句片段,得到对应的语句片段集SP;对每个语句片段的特征向量进行融合,得到对应的特征向量;得到SP对应的特征向量F作为目标文本的特征向量。本发明在词向量生成过程中,将多个相邻的词组合视为一个词,能够使得分词的长度得到极大的压缩。此外,将不同词的特征向量通过张量积的方式组合成一个词的特征向量,可以极大的降低可训练参数量。

    基于语音驱动和人脸自驱动的虚拟人视频合成方法

    公开(公告)号:CN116528019A

    公开(公告)日:2023-08-01

    申请号:CN202310724745.1

    申请日:2023-06-19

    Abstract: 本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法,包括:对原始虚拟人视频素材进行预处理,得到首帧人脸图像为基准人脸图像的第一视频素材;利用设定口型驱动模型驱动所述第一视频素材,得到第二视频素材;将第一视频素材中的首帧人脸图像作为被驱动人脸图像,将第二视频素材中的人脸图像作为口型驱动图像序列,通过设定人脸驱动算法得到第三视频素材;利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像,得到第四视频素材;将第四视频素材和目标音频文件进行合成,得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节,发音和唇形吻合度高,可以对新的人物形象不加训练而快速迁移。

    一种视觉驱动的虚拟角色处理系统

    公开(公告)号:CN116452787A

    公开(公告)日:2023-07-18

    申请号:CN202310696721.X

    申请日:2023-06-13

    Abstract: 本发明提供了一种视觉驱动的虚拟角色处理系统,该系统包括非虚拟角色图像组列表A={A1,A2,……,Ai,……,Am}、虚拟角色图像组B、处理器和存储有计算机程序的存储器,i=1,2,……,m,m为非虚拟角色图像组数量,Ai为第i帧非虚拟角色图像组,还包括根据A获得的非虚拟姿态图像组C={C1,C2,……,Ci,……,Cm}和非虚拟面部图像组D={D1,D2,……,Di,……,Dm},以及根据虚拟角色图像组B获得的虚拟角色的姿态图像Bb和虚拟角色的表情图像Bm,当所述计算机程序被处理器执行时,将Ci与Bb对齐,将Di与Bm对齐,提高了虚拟角色与非虚拟角色的吻合度。

    针对包含边框的视频拷贝检测方法及装置

    公开(公告)号:CN113971770A

    公开(公告)日:2022-01-25

    申请号:CN202010648949.8

    申请日:2020-07-07

    Abstract: 本发明涉及一种针对包含边框的视频拷贝检测方法及装置,该方法包括:从样本视频中抽取多个第一关键帧图像;基于图像边缘由外向内遍历第一关键帧图像,去除纯色像素点区域,得到多个非纯色像素点为边缘的第二关键帧图像;对第二关键帧图像进行二次遍历,去除纯色像素点个数大于第一阈值的图像区域;从每个第二关键帧图像中提取图像特征,得到多个第一多维图像特征向量;基于多个第一多维图像特征向量与视频库中存储的视频的多个第二多维图像特征向量建立索引,获取多个拷贝视频帧图像;根据时间信息,将多个拷贝视频帧图像进行整合,获得拷贝视频片段,由此,可以实现对视频中存在的多处拷贝视频片段的准确检测,并确定其在原视频中的位置。

    摘要生成方法、装置、电子设备及存储介质

    公开(公告)号:CN112613293A

    公开(公告)日:2021-04-06

    申请号:CN202011593291.1

    申请日:2020-12-29

    Abstract: 本发明实施例公开了一种摘要生成方法、装置、电子设备及存储介质,所述方法包括:获取摘要文本信息;分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度;分别提取所述至少一个图像中的图像文本信息,并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度;基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像;基于所述摘要图像和所述摘要文本信息形成目标摘要。本发明实施例的技术方案实现了当用户阅读初始文本时,可以通过摘要图像直观的了解文本的大致内容,通过阅读摘要文本信息获知文本主旨内容,提高用户的阅读体验感。

    一种基于大模型的树形结构知识构建方法、设备及介质

    公开(公告)号:CN119886307A

    公开(公告)日:2025-04-25

    申请号:CN202510070907.3

    申请日:2025-01-16

    Abstract: 本发明提供了一种基于大模型的树形结构知识构建方法、设备及介质,涉及人工智能技术领域,所述方法包括:初始化栈,并创建栈的根节点,获取目标文章的第i行文本;若第i行文本是标题,获取目标文章的第i行文本的标题类型,按照从栈顶到栈底的顺序遍历栈中的子节点,若存在子节点与第i行文本的标题类型相同,将该子节点标记为相同类型节点,并将从栈顶到相同类型节点的全部节点出栈,若栈为空,将第i行文本作为根节点的子节点,并将第i行文本入栈;若栈不为空,获取栈的栈顶,将第i行文本作为栈顶的子节点,并将第i行文本入栈,直到目标文章的所有行遍历完成,生成目标文章的解析树;从而更加高效且准确的获取到目标文章的解析树。

    基于上下文的大语言模型对话处理方法、装置及电子设备

    公开(公告)号:CN119831045A

    公开(公告)日:2025-04-15

    申请号:CN202411915111.5

    申请日:2024-12-24

    Abstract: 本申请实施例公开了一种基于上下文的大语言模型对话处理方法、装置及电子设备,可解决如何提供一种基于上下文相似度分析与智能筛选的动态管理方法来优化大语言模型交互的问题。该方法包括:获取用户输入的当前文本信息;对当前文本信息和预存的多个历史对话信息分别进行编码,得到当前文本向量和多个历史对话向量;根据每个历史对话向量和当前文本向量之间的语义相似度,对多个历史对话向量进行筛选,得到筛选后的目标历史对话信息;将当前文本信息和筛选后的目标历史对话信息进行拼接,得到目标输入文本;将目标输入文本输入到目标语言模型中,得到目标输出响应信息,目标语言模型包括大语言模型。

    一种大模型问答的知识溯源方法、装置、介质和设备

    公开(公告)号:CN119829717A

    公开(公告)日:2025-04-15

    申请号:CN202411905240.6

    申请日:2024-12-23

    Abstract: 本申请涉及人工智能技术领域,特别是涉及一种大模型问答的知识溯源方法、装置、介质和设备。包括:获取大模型问答生成的待溯源文本;根据目标问题和目标任务模式对应的每一置信数据源,得到初始知识载体列表C;根据待溯源文本和C,得到关键知识载体列表M;根据待溯源文本和M,得到关键知识片段匹配度列表集DP;若MAX(DPj)<EP;则将Mj从M中删除;否则不删除,以更新M,得到目标知识载体列表G。本申请提高了知识溯源的准确性,减少了溯源的工作量。且节约了计算机资源,能够为待溯源文本提供较为准确的溯源知识载体,使得用户能够获取大模型问答输出结果的知识来源,辅助用户对于大模型问答输出结果的置信度的判断。

Patent Agency Ranking