-
公开(公告)号:CN115661596A
公开(公告)日:2023-01-31
申请号:CN202211334609.3
申请日:2022-10-28
Applicant: 哈尔滨工业大学
IPC: G06V10/80 , G06V10/82 , G06V20/40 , G06V10/774 , G06V10/764 , G06T7/00
Abstract: 本发明公开了一种基于3D卷积和Transformer的短视频正能量评价方法、装置及设备,涉及视频暴力行为分析技术领域,解决的技术问题为“如何对包含大量帧的视频更好地进行正能量评价”,方法包括:获取视频片段,所述视频片段帧数为预设帧数;基于预先训练好的3D卷积模型对所述视频片段进行特征提取,得到多个特征向量;对所述特征向量进行位置编码;将经过位置编码的多个所述特征向量输入至预先训练好的Transformer模型,得到一个输出向量;将所述输出向量输入至多层感知机模型,计算得到视频片段的正能量分数;该方法基于3D卷积模型和Transformer模型对短视频进行正能量评价,有较好的时序建模效果,且能够处理长时间包含大量视频帧的视频,本发明还应用于计算机视觉领域。
-
公开(公告)号:CN115937641A
公开(公告)日:2023-04-07
申请号:CN202211335121.2
申请日:2022-10-28
Applicant: 哈尔滨工业大学
IPC: G06V10/80 , G06V10/82 , G06V20/40 , G06V10/764
Abstract: 本发明公开了一种基于Transformer的模态间联合编码方法、装置及设备,涉及多模态融合技术领域,解决的技术问题为“如何对模态间信息进行融合,以实现更好的情感分类效果”,方法包括:获取包含多模态信息的待分析视频;提取待分析视频的文本特征、音频特征、视频画面特征;基于全连接层和LSTM层,将所述文本特征、音频特征以及视频画面特征统一为相同的维度;基于Transformer模型,对所述文本特征、音频特征以及视频画面特征进行多模态注意力联合编码;基于多层感知机分类模型,对表征特征进行处理并加权,得到所述待分析视频的分类结果;该方法对于不同的模态能够采用Transformer模型同时进行联合的注意力编码,实现了更好的分类效果。
-
公开(公告)号:CN118038227A
公开(公告)日:2024-05-14
申请号:CN202410278475.0
申请日:2024-03-12
Applicant: 哈尔滨工业大学
IPC: G06V10/80 , G06V20/40 , G06N3/0464 , G06N3/0455 , G06V10/82 , G06V10/40
Abstract: 基于语义信息的无参考视频质量评价方法以及装置,属于视觉语言大模型,尤其涉及无参考视频质量的评价技术领域;解决了现有基于深度学习的无参考视频质量评价方法所存在的提取的特征解释性低、对视频质量的评价与人类视觉感知一致性差的问题;所述方法包括以下步骤:S1、语义特征提取步骤:S2、空间特征提取步骤:S3、特征聚合步骤:S3.1、将所述待评价视频的2×r维的语义特征向量和空间特征向量连接起来,获得所述待评价视频的质量特征;S3.2、将所述待评价视频的质量特征作为回归头的输入,获得所述待评价视频的质量评价分数。所述的基于语义信息的无参考视频质量评价方法以及装置,适用于无参考视频质量的评价。
-
公开(公告)号:CN117036885A
公开(公告)日:2023-11-10
申请号:CN202311018030.0
申请日:2023-08-14
Abstract: 一种融合视频画面和场景文本信息的跨模态视频正能量评价方法、系统及计算机存储介质,涉及视频敏感内容分析领域。解决现有基于回归的方法仅考虑了视频中的视觉特征,而忽略了视频中的场景文字信息的问题。本发明提供以下方案,获取视频片段,使用预先训练好的R3D模型对视频片段进行特征选取,得到多个特征向量;对获得的多个特征向量进行全局平均池化操作,并通过全连接获得视频画面特征;提取视频画面特征中的场景文本特征,即删除重复的场景文本特征或句子;文本编辑器用于提取场景文本特征,同时对BERT组件输出的标记嵌入进行均值池化操作,以获得每个句子的特征向量;将获得的视频画面特征和获得的场景文本特征同时输入特征融合模块中,分别使用视觉编码器和场景文本编码器并聚合跨模态融合令牌对两种模态信息进行联合编码;将特征融合模块的输出作为MLP模块的输入,通过MLP模快的处理获得视频的正能量分数。还适用于视频画面信息与场景文本信息提取领域。
-
公开(公告)号:CN118115917A
公开(公告)日:2024-05-31
申请号:CN202410278473.1
申请日:2024-03-12
Applicant: 哈尔滨工业大学
IPC: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/0442 , G06N3/0895
Abstract: 无参考视频质量评价方法、程序产品及存储介质,属于视觉语言大模型,尤其涉及无参考视频质量的评价技术领域;解决了现有基于深度学习的无参考视频质量评价方法所存在的提取的特征解释性低、与人类视觉系统的感知一致性差的问题;所述方法包括以下步骤:S1、特征提取:S1.2、将所述N条文本描述和待评价视频作为所述CLIP模型的输入,获得所述待评价视频的每一个视频帧的N维特征向量;S2、特征降维;S3、特征聚合;S3.4、将所述表征每一个视频帧的质量评价分数与所述待评价视频的整体质量评价分数之间关系的参数输入MLP模块,获得所述待评价视频的整体质量评价分数。所述的无参考视频质量评价方法,适用于无参考视频质量的评价。
-
公开(公告)号:CN115713708A
公开(公告)日:2023-02-24
申请号:CN202211334574.3
申请日:2022-10-28
Applicant: 哈尔滨工业大学
IPC: G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/08 , G06T7/00 , G06N3/0464
Abstract: 本发明公开了一种基于Transformer的模仿人眼特性的视频质量评价方法及装置,涉及无参考视频客观质量评价技术领域,解决的技术问题为“如何进行时序融合并考虑到人眼特性,以实现更好的评价效果”,方法包括:获取待评价视频片段,并提取待评价视频片段的帧图像;对帧图像进行内容特征提取,得到各个帧图像对应的第一特征向量;基于视频片段时序信息,对第一特征向量进行位置编码;基于Transformer模型,对经过位置编码的第一特征向量进行特征聚合,得到各个帧图像对应的初步质量分数;将多个帧图像的初步质量分数输入时间池模型,计算得到视频片段最终质量分数;该方法基于Transformer模型进行时序融合,并且能够考虑到人眼特性对视频质量评价的影响,预测准确率更高。
-
-
-
-
-