-
公开(公告)号:CN119445439A
公开(公告)日:2025-02-14
申请号:CN202411473451.7
申请日:2024-10-22
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06F40/295 , G06F40/16 , G06N3/045 , G06N3/0442
Abstract: 本发明公开了一种基于深度神经网络的多模态视频定位方法,该方法首先将用户输入的句子S分解,对于句子中的每个单词依据词性分类,使用独热编码表示分类结果,并对句子S初始化获得词特征矩阵。其次根据词特征矩阵,得到语言查询特征矩阵,根据独热编码提取实体信息特征和动作信息特征。然后基于用户输入视频,生成视觉特征,结合实体信息特征,获取实体的视觉特征。最后基于实体的视觉特征,通过全连接层计算视频帧的动作相关得分,通过双分支网络预测目标动作片段的起始边界和结束边界,得到定位结果,并构建损失函数进行反向训练。本发明解决视频定位中预测精度低的技术问题,提高视频中动作边界预测的准确性。
-
公开(公告)号:CN119202149A
公开(公告)日:2024-12-27
申请号:CN202410943597.7
申请日:2024-07-15
Applicant: 杭州电子科技大学
IPC: G06F16/332 , G06V20/40 , G06N5/04 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于大模型智能体多轮推理的长视频问答方法,根据问题和选项确定初始的关键帧序列,并生成选项的置信度分数,置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式,和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估,决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同,有效提高了视频问答的准确率和质量。
-
公开(公告)号:CN117912067A
公开(公告)日:2024-04-19
申请号:CN202311523306.0
申请日:2023-11-15
Applicant: 杭州电子科技大学
IPC: G06V40/16 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/0475 , G06N3/08
Abstract: 本发明公开了基于唇动人脸生成技术的带表情说话人脸图像生成方法,包括如下步骤:S1、获取原视频,指定语言的单说话人视频,基于该原视频,得到翻译成另一种指定语言的人声音频和不带表情的图片序列;S2、基于另一种指定语言的人声音频,得到人声特征向量;S3、基于不带表情的图片序列,得到人脸特征向量;S4、基于预先给定的原视频人脸真实表情标注,得到人脸表情信息特征向量;S5、基于人声、人脸、表情信息特征向量,得到初始生成人脸;S6、将初始生成人脸通过鉴别器,获得自然带表情说话人脸图像序列。该方法通过引入一个额外的用于生成人脸表情的表情标签编码器、一个用于计算表情同步损失的预训练表情鉴别器,使其带有自然的面部表情。
-
公开(公告)号:CN117496993A
公开(公告)日:2024-02-02
申请号:CN202311470755.3
申请日:2023-11-07
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种融合唇语生成的视频翻译方法,包括如下步骤:S1:生成身份信息匹配表步骤,用以为后续唇语生成步骤中正确目标的面部驱动提供多模态生物信息;S2:音频文本对齐步骤,用以识别音频文本并将音频以句子为单位正确分段;S3:人脸目标检测步骤,利用所述人脸声纹身份匹配信息确认视频中所呈现的一个或多个人脸身份;S4:唇语生成步骤,利用所述身份对应生成音频翻译后该人脸的唇部动作;S5:视频组装步骤,将所述生成视频片段组装拼接。该方法,以实现不同语言说话视频之间包括语音与唇语的变换。
-
公开(公告)号:CN117392675A
公开(公告)日:2024-01-12
申请号:CN202311293866.1
申请日:2023-10-09
Applicant: 杭州电子科技大学
IPC: G06V20/70 , G06V40/20 , G06V10/774 , G06V10/82 , G06V10/30 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于适配网络增强扩散模型的人体姿态场景恢复方法,属于计算机视觉的图像生成领域,该方法首先每一组训练用的数据表示为一个五元组B(N)分别制作灰度图A0,B0。其次由扩散模型得到扩散模型中主(A(N),B(N),y,ZA,ZB),并用点阵A(N),副适配器的差异,并根据差异计算出损失函数,并计算结余损失。最后根据损失函数和结余损失函数得到全局优化函数,对输出的人物姿态图进行优化。本发明消除了通过试探方法训练寻找损失函数间权值时所需的计算开销,实现了预训练模型功能细分的训练方式,使得输出的人物姿态图更为准确稳定。
-
公开(公告)号:CN116993826A
公开(公告)日:2023-11-03
申请号:CN202310945852.7
申请日:2023-07-31
Applicant: 杭州电子科技大学
IPC: G06T7/73 , G06T7/80 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于局部空间融合神经辐射场的场景新视图生成方法,包含如下步骤:S1,将输入图片使用COLMAP进行摄像机标定,并对图像上各像素对应的射线进行数字化表示;S2,构建网络结构,包含神经辐射场网络模型与局部空间信息聚合模型;S3,依据优化采样方式选择像素作为每次网络迭代的输入,输出每个采样点的预测密度与预测颜色;S4,建立体渲染模型计算得到各条光线对应像素点颜色;S5根据像素点的实际颜色与预测颜色,考虑局部空间颜色信息的一致性构建损失函数,并以此更新S2网络结构的参数;本发明通过获取并融合局部空间的三维点信息,进行三维邻近空间中共有特征的交互,以实现质量更高的新视图生成。
-
公开(公告)号:CN116883908A
公开(公告)日:2023-10-13
申请号:CN202310931516.7
申请日:2023-07-27
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/764 , G06V10/62 , G06V10/77 , G06V10/40 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/047 , G06N3/082
Abstract: 本发明公开了一种具有再注意机制的卷积注意力弱监督时序动作定位方法,本发明利用卷积注意力挖掘全局局部信息,并通过再注意进行细化以进行弱监督时序动作检测。步骤如下:1、数据预处理,提取视频数据的初始时空特征。2、具有再注意机制的卷积注意力模型,搭建带有多头自注意力机制的多阶段模型,引入三个辅助分支分别对动作,背景和动作上下文进行学习。3、模型训练,利用反向传播算法训练神经网络参数。4、生成定位检测结果。本发明提出一种弱监督时序动作定位领域中利用卷积注意力机制挖掘局部和全局时序信息,并通过再注意细化注意力权重的多阶段方法,同时通过辅助分支挖掘额外信息,相比于原始方法在性能上有了不少提升。
-
公开(公告)号:CN116776938A
公开(公告)日:2023-09-19
申请号:CN202310694109.9
申请日:2023-06-13
Applicant: 杭州电子科技大学
IPC: G06N3/0475 , G06N3/094 , G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0499
Abstract: 本发明公开了一种基于对抗式训练的多模态适配网络学习方法,包括如下步骤:S1、构建对抗式多模态适配网络,包括多模态模型的构建和对抗式扰动生成器的构建;S2、设置损失函数,包括原始损失、扰动后损失和扰动差异损失;S3、所构建的多模态模型朝着最小化所设置的损失函数的损失方向优化,所构建的对抗式扰动生成器朝着最大化所设置的损失函数的损失方向进行优化。该方法在现有的多模态模型上搭建用于适配下游任务的适配器和用于生成对抗式噪声扰动的扰动生成器,并将适配器与扰动生成器统一在一个对抗式训练的框架中进行端到端的训练,使得多模态模型在对下游任务的适配上能够获得更好的稳健性与泛化性。
-
公开(公告)号:CN111368870B
公开(公告)日:2023-09-05
申请号:CN201911063010.9
申请日:2019-10-31
Applicant: 杭州电子科技大学
IPC: G06V10/80 , G06F16/783 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频‑文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。
-
公开(公告)号:CN111368870A
公开(公告)日:2020-07-03
申请号:CN201911063010.9
申请日:2019-10-31
Applicant: 杭州电子科技大学
IPC: G06K9/62 , G06F16/783 , G06N3/04
Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频-文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。
-
-
-
-
-
-
-
-
-