一种基于多模态大模型的图像质量评价系统和方法

    公开(公告)号:CN119991649A

    公开(公告)日:2025-05-13

    申请号:CN202510169091.X

    申请日:2025-02-17

    Abstract: 本发明提供一种基于多模态大模型的图像质量评价系统和方法,包括:输入模块:用于接收输入图像和文本描述;视觉编码器:将所述输入图像转换为视觉特征编码;文本编码器:将所述文本描述转换为文本嵌入特征;多尺度特征抽象器:从所述视觉特征编码提取出多尺度特征,并与所述文本嵌入特征合并;任务处理模块:根据任务类型,完成质量分数量化、质量描述、质量标注区域的一种或者多种;输出模块:将所述任务处理模块的处理结果输出。本发明构建统一的多模态框架:将图像的质量分数量化,质量损失描述以及质量损失区域标注任务整合到一个统一的多模态大模型中,实现多任务的协同处理。

    针对插帧视频的无参考视频质量评价方法、系统及终端

    公开(公告)号:CN117478973A

    公开(公告)日:2024-01-30

    申请号:CN202311432724.9

    申请日:2023-10-31

    Abstract: 本发明提供了一种针对插帧视频的无参考视频质量评价方法、系统及终端,包括:从经过插帧的视频中获得单帧插帧图像,同时取单帧插帧图像的前后相邻两帧组成连续的三帧作为一组三元帧;利用预训练后的神经网络分别从每一组三元帧中提取多尺度特征图,学习相邻帧之间的关联性,得到每组三元帧的特征图;将每组三元帧的特征图的多尺度特征分为低级图像特征和高级语义特征,对低级图像特征进行前后文相似性计算,得到三元帧在低级特征上的相似性特征向量;对高级语义特征进行池化,得到三元帧在时间维度上的特征向量;将特征向量进行融合并输入质量回归网络,得到插帧视频客观质量评价分数。本发明可有效地评价插帧视频的总体感知体验质量。

    用户端无参考流媒体视频质量评价方法、系统及终端

    公开(公告)号:CN117478951A

    公开(公告)日:2024-01-30

    申请号:CN202311421828.X

    申请日:2023-10-30

    Abstract: 本发明提供了一种用户端无参考流媒体视频质量评价方法、系统及终端,包括:从流媒体用户端的视频流中截取单帧图像序列;获取视频流的传输服务质量指标,处理为统一格式的时间序列;采用预训练的resnet50网络对单帧图像序列进行特征提取,得到resnet50网络四个阶段的时序显示特征序列;采用预训练的slowfast r50网络对单帧图像序列进行特征提取,取slowfast r50网络中快速路输出的特征,得到时序运动特征序列;对时序显示特征序列、时序运动特征序列以及统一格式的时间序列进行时序处理,并输出实时和整体的客观质量评价分数。本发明可有效地评价用户端流媒体视频的实时和总体感知体验质量。

    融合前后文特征的全参考插帧视频质量评价方法和系统

    公开(公告)号:CN117478974A

    公开(公告)日:2024-01-30

    申请号:CN202311433011.4

    申请日:2023-10-31

    Abstract: 本发明提供了一种融合前后文特征的全参考插帧视频质量评价方法和系统,从参考视频和失真视频中抽取关键帧序列得到参考和失真序列,在失真序列基础上构建三元帧数据,利用视频卷积神经网络提取参考、失真序列和每组三元帧的多尺度特征图,分为低级图像特征和高级语义特征。在三元帧的特征图中分别对两种特征计算前后文相似性和平均池化操作,学习表示相邻帧之间关联性的前后文特征向量,在参考及失真特征图中依次对每个特征进行结构相似性计算和时序平均池化操作,学习随时间变化的参考帧和失真帧的相似性特征向量。最后将两种多尺度特征进行融合并进行质量回归得到最终的客观质量评价分数。本发明可有效地评价插帧视频的总体感知体验质量。

    基于时序注意力的全参考流媒体视频质量评价方法及系统

    公开(公告)号:CN117478952A

    公开(公告)日:2024-01-30

    申请号:CN202311422647.9

    申请日:2023-10-30

    Abstract: 本发明提供一种基于时序注意力的全参考流媒体视频质量评价方法及系统,包括:获取单帧视频质量序列及其对应的传输服务质量指标;对所述单帧视频质量序列和所述传输服务质量指标进行处理,形成统一格式的时间序列;从所述时间序列中提取短时特征和长时特征进行融合,得到融合后的特征;短时指对序列中每个时间步而言,提取该时间步之前N秒内的时序信息并融合,长时指对序列中的每个时间步而言,需聚合的时间步包括该时间步之前的全部时间步;对所述融合后的特征进行时序池化,输出预测的流媒体视频实时和整体感知质量分数。本发明可有效地评价在有原始视频的情况下的用户端流媒体视频的全参考实时和总体感知体验质量。

Patent Agency Ranking