基于自注意力机制的端到端视频压缩方法及系统

    公开(公告)号:CN119316609A

    公开(公告)日:2025-01-14

    申请号:CN202411837846.0

    申请日:2024-12-13

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于自注意力机制的端到端视频压缩方法及系统,涉及视频编码领域,方法包括:提取当前帧、运动参考帧和上一时刻的重构帧的浅层特征;提取当前帧和运动参考帧之间的运动信息特征;压缩运动信息特征,获得压缩后的运动信息特征;将压缩后的运动信息特征补偿在上一时刻的重构帧的浅层特征上,获得当前时刻的上下文信息特征;压缩获得压缩后的上下文信息特征;将压缩后的上下文信息特征和当前帧的浅层特征融合特征进行编码,获得当前时刻的重构帧;对当前时刻的重构帧进行上采样,获得压缩视点图像;对压缩视点图像中的运动信息累积误差进行修正,得到下一帧的运动参考帧。本发明能够在提高运动估计的准确性的同时提升了编码的效率。

    基于分层时空感知的屏幕内容视频质量评价方法及装置

    公开(公告)号:CN118865075A

    公开(公告)日:2024-10-29

    申请号:CN202411319739.9

    申请日:2024-09-23

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于分层时空感知的屏幕内容视频质量评价方法及装置,涉及视频评价领域,包括:提取屏幕内容视频中的若干个碎片化视频和若干个关键帧并输入经训练的屏幕内容视频质量评价模型,每个关键帧输入显著性计算模块筛选出若干个显著视频块,每个显著视频块输入双通道卷积神经网络,得到每个阶段的多层特征并输入块级质量评估模块,经过空间门特征增强模块,得到每个阶段的增强特征并输入块级质量聚合模块,得到每个视频块的块级质量分数;采用自适应加权策略计算得到空域感知质量分数;碎片化视频输入时域感知质量评估支路,得到时域感知质量分数,两者结合计算得到屏幕内容视频的质量分数,解决现有视频质量评价方法可靠性差的问题。

    基于全局特征与头肩特征多核融合的行人识别方法及装置

    公开(公告)号:CN118397659B

    公开(公告)日:2024-10-15

    申请号:CN202410828405.8

    申请日:2024-06-25

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于全局特征与头肩特征多核融合的行人识别方法及装置,涉及图像识别领域,包括:采用经训练的行人头肩部检测模型对行人图像进行头肩部检测,得到行人头肩部图像;在行人识别模型中,将行人图像和行人头肩部图像分别输入全局特征提取分支和头肩特征提取分支,得到全局特征向量和头肩特征向量并输入多核融合模块进行融合,得到融合特征向量,根据全局特征向量、头肩特征向量和融合特征向量构建损失函数,以训练行人识别模型,得到经训练的行人识别模型;将待识别的行人图像及其对应的行人头肩部图像输入经训练的行人识别模型,得到对应的融合特征向量,再进行行人识别。本发明解决鱼眼摄像机下图像特征差异大、准确度低的问题。

    一种基于强感知Transformer架构的缺损视频修复方法及系统

    公开(公告)号:CN118469876B

    公开(公告)日:2024-10-01

    申请号:CN202410912771.1

    申请日:2024-07-09

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于强感知Transformer架构的缺损视频修复方法及系统,涉及视频处理技术领域,方法包括以下步骤:特征提取模块接收待修复的缺损视频帧序列,采用卷积神经网络对视频帧进行特征提取,输出第一特征;强感知Transformer模块接收第一特征,采用交叉堆叠的局部感知Transformer和全局感知Transformer结构对第一特征进行纹理信息建模和结构信息建模,输出第二特征;重构模块接收第二特征,采用反卷积层进行视频帧重建,输出修复后视频帧序列。本发明采用交叉堆叠的局部感知Transformer和全局感知Transformer进行纹理信息和结构信息建模,有效解决现阶段缺损视频修复方法中存在修复区域缺乏细节纹理、全局结构与局部纹理不匹配的问题,实现更好的修复效果。

    基于感兴趣区域的VVC码率控制方法及装置

    公开(公告)号:CN118101938A

    公开(公告)日:2024-05-28

    申请号:CN202410497734.9

    申请日:2024-04-24

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于感兴趣区域的VVC码率控制方法及装置,涉及视频编码领域,方法包括:使用基于残差SSD网络训练的人脸检测模型检测图像中的人脸区域作为ROI;使用斯塔克尔伯格模型对ROI的失真进行建模,并采用二分法求解ROI的目标比特;计算编码图像的JND图作为空域视觉敏感度,对8x8互不重叠的子块进行运动估计,得到时域视觉敏感度;将有约束问题转化为无约束问题,并采用KKT条件进行最优化求解,得到最优拉格朗日乘子用于进行比特分配。本发明考虑视频会议、视频监控等应用对ROI的需求增长,人眼对ROI区域重点关注,提取空时域感知敏感度,对ROI和nROI的比特分配问题分别建模并进行最优化求解,合理进行比特分配。

    融合图重采样和梯度特征的参考点云质量评估方法及系统

    公开(公告)号:CN117011299B

    公开(公告)日:2024-02-20

    申请号:CN202311280774.X

    申请日:2023-10-07

    Applicant: 华侨大学

    Abstract: 本发明公开了一种融合图重采样和梯度特征的参考点云质量评估方法及系统,涉及图像处理领域,方法包括:使用基于图的关键点重采样方法,对输入的参考点云进行关键点提取;以关键点为中心划分参考点云和失真点云的局部邻域组,根据关键点与其他点在坐标空间中的欧几里德距离来聚类每个局部区域内的点;分别提取参考点云和失真点云的三维梯度幅值特征和三维梯度方向图特征,基于三维梯度幅值特征计算三维梯度幅值相似度,基于三维梯度方向图特征计算三维梯度方向图相似度,并计算出联合三维梯度特征相似度;基于联合三维梯度特征相似度,使用响应强度值进行加权池化,得到失真点云的客观质量分数。本发明具有较高的识别准确性、敏感性以及鲁棒性。

    基于多模态融合的压缩视频质量增强方法及装置

    公开(公告)号:CN117237259A

    公开(公告)日:2023-12-15

    申请号:CN202311510614.X

    申请日:2023-11-14

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于多模态融合的压缩视频质量增强方法及装置,涉及图像处理领域,该方法包括:获取图像帧及其对应的光流图和纹理图并分别进行特征提取,得到图像特征、光流特征和纹理特征;构建压缩视频质量增强模型并训练,得到经训练的压缩视频质量增强模型;将图像特征、光流特征和纹理特征输入经训练的压缩视频质量增强模型,图像特征、光流特征和纹理特征输入多模态一致性单元,自适应调整三种模态信息的分布,得到第一特征、第二特征和第三特征并输入多模态融合单元以进行特征融合,得到融合特征并输入多模态重构单元,得到重构信息,将重构信息与图像帧相加,得到增强的视频帧,解决单模态图像难以有效改善最终重建视频的质量的问题。

    融合图重采样和梯度特征的参考点云质量评估方法及系统

    公开(公告)号:CN117011299A

    公开(公告)日:2023-11-07

    申请号:CN202311280774.X

    申请日:2023-10-07

    Applicant: 华侨大学

    Abstract: 本发明公开了一种融合图重采样和梯度特征的参考点云质量评估方法及系统,涉及图像处理领域,方法包括:使用基于图的关键点重采样方法,对输入的参考点云进行关键点提取;以关键点为中心划分参考点云和失真点云的局部邻域组,根据关键点与其他点在坐标空间中的欧几里德距离来聚类每个局部区域内的点;分别提取参考点云和失真点云的三维梯度幅值特征和三维梯度方向图特征,基于三维梯度幅值特征计算三维梯度幅值相似度,基于三维梯度方向图特征计算三维梯度方向图相似度,并计算出联合三维梯度特征相似度;基于联合三维梯度特征相似度,使用响应强度值进行加权池化,得到失真点云的客观质量分数。本发明具有较高的识别准确性、敏感性以及鲁棒性。

Patent Agency Ranking