-
公开(公告)号:CN116188857A
公开(公告)日:2023-05-30
申请号:CN202310152193.1
申请日:2023-02-23
Applicant: 复旦大学
IPC: G06V10/764 , G06V10/774 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,具体为融合CNN和深度学习变形器的目标检测方法。本发明方法包括CNN和深度学习变形器组合模型构建、组合模型参数压缩、标签分配、损失函数设计;本发明将CNN和深度学习变形器结合,利用CNN来进行局部特征增强,用于扩展特征提取范围;利用深度学习变形器建立全局上下文联系来增强级联网络,用于捕获特征地图的全局信息;特征桥促进特征信息在CNN和深度学习变形器之间流动;设计共享子层以实现相邻卷积层或交叉卷积层之间权重参数共享,减少卷积权重参数的数量,提升目标检测的预测速度;最优传输分配解决标签分配问题,提升目标检测的检测精度。通过多个方面协同大大提升目标检测效果和速度。
-
公开(公告)号:CN114885161B
公开(公告)日:2024-08-09
申请号:CN202210432325.1
申请日:2022-04-22
Applicant: 复旦大学
IPC: H04N19/11 , H04N19/147 , H04N19/176 , G06T5/40
Abstract: 本发明属于视频压缩编解码技术领域,具体为一种适用于VVC标准的帧内预测的模式选择的快速算法。本发明从梯度直方图与帧内模式的映射和空间相关性两个方面来减少VVC标准的编码复杂度从而加快帧内预测速度;首先,通过引入梯度直方图HOG建立帧内65个角度模式和HOG的32个区间的映射关系,对于HOG区间的选择从而对模式进行选择,利用纹理信息与角度模式的关系减少SATD和RDO等耗时操作的可能性;另外,利用空间信息的相关性减低编码的冗余度,参考左面和上面CU的模式作为当前CU的模式的选择参考。通过这两个方面大大加速帧内预测的模式选择过程。
-
公开(公告)号:CN116248877A
公开(公告)日:2023-06-09
申请号:CN202310192824.2
申请日:2023-03-02
Applicant: 复旦大学
IPC: H04N19/11 , H04N19/176 , H04N19/147
Abstract: 本发明属于视频压缩编解码技术领域,具体为一种用于机器视频编码的快速VVC帧内编码方法。本发明首先使用神经网络提取具有不同形状的编码块(CU)的特征,然后设计基于方向梯度直方图(HOG)的快速算法,包括:计算编码块的梯度直方图值:计算每个像素点的梯度幅值、梯度角度,建立角度模式和HOG区间之间的关系;对区域进行区间划分,计算最大区间占所有区间的比值Q;设置阈值W,通过比较比值Q与阈值W的关系,选择最佳模式;本发明用于新一代通用视频编码标准(VVC)帧内机器的视频编码,以克服耗时问题,同时保持编解码器视觉任务的性能。
-
公开(公告)号:CN114169495A
公开(公告)日:2022-03-11
申请号:CN202111329117.0
申请日:2021-11-10
Applicant: 复旦大学
Abstract: 本发明属于神经网络技术领域,具体为一种用于神经网络训练的知识蒸馏算法。本发明知识蒸馏算法,涉及老师模型、学生模型以及特征转换模块;特征转移模块主要包括注意力机制转移模块(AT)和激活信息转移模块(AC)两部分;本发明利用复杂的老师模型通过特征层的激活信息以及注意力机制信息的转移,使简单的学生模型学习到有用的特征信息,从而提升学生模型的性能;在训练过程中,老师参与模型的训练,得到有用特征信息的学生模型不在老师的参与下进行前向推理。利用本发明算法进行图像分类,其Top1错误率和Top5错误率明显低于采用通常方法进行训练得到的图像分类的Top1错误率和Top5错误率。
-
公开(公告)号:CN119211557A
公开(公告)日:2024-12-27
申请号:CN202410738687.2
申请日:2024-06-07
Applicant: 复旦大学
IPC: H04N19/147 , H04N19/159 , H04N19/196 , H04N19/96 , H04N19/42 , G06N3/0464
Abstract: 本发明属于视频压缩编解码技术领域,具体为一种面向机器视频编码的快速VVC帧内编码方法。本发明采用神经网络技术,把卷积神经网络(CNN)块和深度变形器(transformer)块的编码器与解码器串联;实现高效、准确的编码,使得对编码块的分割判决更加精确。本发明还通过重新训练CNN网络指导块划分,减少率失真优化(RDO)过程的复杂度,该方法特别适用于新一代的通用视频编码标准VVC。本发明可以在减少编码复杂度的同时,显著提升视频编解码的性能,特别是在面向机器的应用场景。
-
公开(公告)号:CN118741143A
公开(公告)日:2024-10-01
申请号:CN202410738686.8
申请日:2024-06-07
Applicant: 复旦大学
IPC: H04N19/42 , H04N19/40 , H04N19/44 , H04N19/20 , H04N19/146 , H04N19/167 , H04N19/166 , H04L67/10
Abstract: 本发明属于视频编码技术领域,具体为用于机器视频编码的具有隐私保护功能的自编码器。用于机器视频编码(VCM)包含需要保护隐私的敏感信息,以解决安全漏洞。在保护这些敏感数据的同时保持VCM性能的平衡。本发明引入由深度学习网络集成的自编码器,使用ResNet架构。这种设计模糊私人细节,同时保留轮廓;具体提供一个维护隐私和VCM性能的高维表示;编码器和解码器之间的分割位置是至关重要的,它影响压缩效率与机器任务性能之间的平衡。本发明设计了一个灵活的、可调节位置的自编码器设置,实现比特率和mAP之间的和谐折衷,适用于各种深度学习网络。这种调整表现出比现有模型更优越的性能。
-
公开(公告)号:CN114885161A
公开(公告)日:2022-08-09
申请号:CN202210432325.1
申请日:2022-04-22
Applicant: 复旦大学
IPC: H04N19/11 , H04N19/147 , H04N19/176 , G06T5/40
Abstract: 本发明属于视频压缩编解码技术领域,具体为一种适用于VVC标准的帧内预测的模式选择的快速算法。本发明从梯度直方图与帧内模式的映射和空间相关性两个方面来减少VVC标准的编码复杂度从而加快帧内预测速度;首先,通过引入梯度直方图HOG建立帧内65个角度模式和HOG的32个区间的映射关系,对于HOG区间的选择从而对模式进行选择,利用纹理信息与角度模式的关系减少SATD和RDO等耗时操作的可能性;另外,利用空间信息的相关性减低编码的冗余度,参考左面和上面CU的模式作为当前CU的模式的选择参考。通过这两个方面大大加速帧内预测的模式选择过程。
-
-
-
-
-
-