-
公开(公告)号:CN111698514B
公开(公告)日:2022-04-15
申请号:CN201910184099.8
申请日:2019-03-12
Applicant: 北京大学
IPC: H04N19/176 , H04N19/51 , H04N19/146 , H04N19/149 , H04N19/109 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的多模式分像素插值方法,其步骤包括:1)差分预测网络对输入的已编码的整像素参考块采用两种模式进行预测,生成两种模式下的分像素预测值;模式一、差分预测网络预测所有目标亚像素到该整像素参考块的左上角整像素的残差,并将左上角整像素与预测残差相加,得到一组目标亚像素值;模式二、差分预测网络预测目标亚像素与该整像素参考块的左上角之外的一整像素的残差,计算对应的目标亚像素预测值;2)编码器分别使用已有插值方法生成的亚像素级参考块、模式一和模式二生成的亚像素级参考块,对待编码块进行帧间编码,然后基于三种编码的编码效果选择最佳亚像素级参考块,并将供解码器端使用的相应信息存储到码流。
-
公开(公告)号:CN113259676A
公开(公告)日:2021-08-13
申请号:CN202010084834.0
申请日:2020-02-10
Applicant: 北京大学
IPC: H04N19/182 , H04N19/124 , H04N19/42 , G06T9/00 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的图像压缩方法和装置,主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。
-
公开(公告)号:CN111698514A
公开(公告)日:2020-09-22
申请号:CN201910184099.8
申请日:2019-03-12
Applicant: 北京大学
IPC: H04N19/176 , H04N19/51 , H04N19/146 , H04N19/149 , H04N19/109 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的多模式分像素插值方法,其步骤包括:1)差分预测网络对输入的已编码的整像素参考块采用两种模式进行预测,生成两种模式下的分像素预测值;模式一、差分预测网络预测所有目标亚像素到该整像素参考块的左上角整像素的残差,并将左上角整像素与预测残差相加,得到一组目标亚像素值;模式二、差分预测网络预测目标亚像素与该整像素参考块的左上角之外的一整像素的残差,计算对应的目标亚像素预测值;2)编码器分别使用已有插值方法生成的亚像素级参考块、模式一和模式二生成的亚像素级参考块,对待编码块进行帧间编码,然后基于三种编码的编码效果选择最佳亚像素级参考块,并将供解码器端使用的相应信息存储到码流。
-
公开(公告)号:CN113259676B
公开(公告)日:2023-01-17
申请号:CN202010084834.0
申请日:2020-02-10
Applicant: 北京大学
IPC: H04N19/182 , H04N19/124 , H04N19/42 , G06T9/00 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的图像压缩方法和装置,主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。
-
公开(公告)号:CN109101858B
公开(公告)日:2022-02-18
申请号:CN201710470470.8
申请日:2017-06-20
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供的动作识别方法及装置确定接收视频数据中的目标帧和目标帧之前的连续若干帧,并在视频数据中提取该目标帧的数据信息和该目标帧之前的连续若干帧的数据信息。对预设个数的增益参数、目标帧的数据信息和目标帧之前的连续若干帧的数据信息进行预设次数的卷积处理,获得高阶特征数据,将该高阶特征数据添加至视频数据中,形成待提取数据,对待提取数据进行时序特征提取,获得特征向量,最后根据特征向量获取动作识别结果,从而可以提取到视频数据的高阶特征,进而提高动作识别的准确度。
-
公开(公告)号:CN113132755A
公开(公告)日:2021-07-16
申请号:CN201911415561.7
申请日:2019-12-31
Applicant: 北京大学
IPC: H04N21/2343 , H04N21/4402 , H04N19/132 , H04N19/13
Abstract: 本发明公开了一种可扩展人机协同图像编码方法及编码系统。本方法为:提取各样本图片的边缘图并矢量化,作为驱动机器视觉任务的紧凑表示;在矢量化后的边缘图中进行关键点提取作为辅助信息;对紧凑表示和辅助信息分别进行熵编码无损压缩,获得两路码流;对两路码流进行初步解码,获得边缘图以及辅助信息;将解码得到的边缘图以及辅助信息输入生成神经网络中,进行网络的前向计算;根据得到的计算结果与对应原始图片进行损失函数计算,并将计算的损失反向传播到神经网络进行网络权值更新直到神经网络收敛,得到双路码流解码器;获取待处理图像的边缘图和辅助信息并编码压缩后得到两路码流;双路码流解码器对收到的码流解码,重建图像。
-
公开(公告)号:CN113132735A
公开(公告)日:2021-07-16
申请号:CN201911392082.8
申请日:2019-12-30
Applicant: 北京大学
IPC: H04N19/503 , H04N19/136 , H04N19/42 , H04N19/124 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于视频帧生成的视频编码方法,其步骤包括:训练神经网络:每次训练迭代时,从样本视频训练集中抽取一个视频片段的两帧Ik和It送入神经网络中,生成对It的预测计算和目标帧It之间的L1范数并将其反向传播到神经网络,直到神经网络收敛;编码阶段:编码端利用神经网络提取已编码的参考帧和目标待编码非关键帧之间的稀疏运动表征,生成预测帧;将预测帧加入参考帧列表进行帧间预测,然后将帧间预测信息和稀疏运动表征发送给解码端;解码阶段:解码端根据重建的参考帧和传输的稀疏运动表征估计到目标帧的稠密运动信息并生成目标帧;然后将生成的目标帧加入参考帧列表并利用帧间预测信息进行目标帧的重建。
-
公开(公告)号:CN109101858A
公开(公告)日:2018-12-28
申请号:CN201710470470.8
申请日:2017-06-20
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06K9/00
Abstract: 本发明提供的动作识别方法及装置确定接收视频数据中的目标帧和目标帧之前的连续若干帧,并在视频数据中提取该目标帧的数据信息和该目标帧之前的连续若干帧的数据信息。对预设个数的增益参数、目标帧的数据信息和目标帧之前的连续若干帧的数据信息进行预设次数的卷积处理,获得高阶特征数据,将该高阶特征数据添加至视频数据中,形成待提取数据,对待提取数据进行时序特征提取,获得特征向量,最后根据特征向量获取动作识别结果,从而可以提取到视频数据的高阶特征,进而提高动作识别的准确度。
-
公开(公告)号:CN112019854B
公开(公告)日:2023-01-17
申请号:CN201910450808.2
申请日:2019-05-28
Applicant: 北京大学
IPC: H04N19/176 , H04N19/149 , H04N19/30 , H04N19/96 , H04N19/82
Abstract: 本发明为一种基于深度学习神经网络的环路滤波方法,利用了视频编码中块划分树的信息,进一步提升视频恢复质量。与传统的视频编码器内采用了手工设计的去块效应模块以及样点自适应补偿模块不同,本发明利用了深度卷积神经网络在大量训练数据集上进行学习,从而更准确地学习到从低质量视频到高质量视频的非线性映射。本发明为块与块间增加了连接,从而可以传递未被压缩的特征信息。此外,本发明还利用了视频编码器提供的块划分树中的多层块划分信息,生成多层编码单元均值图,进一步辅助神经网络更好地消除块效应。
-
公开(公告)号:CN113132732B
公开(公告)日:2022-07-29
申请号:CN201911408329.0
申请日:2019-12-31
Applicant: 北京大学
IPC: H04N19/187 , H04N19/30 , H04N19/44 , H04N19/146 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种人机协同的视频编码方法及视频编码系统。本方法为:1)对于一段待编码视频以及对应的关键点序列,编码器首先对关键点序列进行编码压缩,形成关键点序列码流;然后从待编码视频中选取一帧并编码,作为参考帧,形成参考帧码流;根据关键点序列和参考帧生成一预测视频;2)降低该待编码视频的分辨率;计算该真实低分率视频与预测视频信号之间的残差,根据各帧的残差组成一残差视频序列并将其编码成残差码流;3)编码器根据需求将码流选择性的传输到解码器;如果为机器视觉任务,则根据关键点码流重建得到关键点序列;如果需要重建视频序列,则根据三码流重建得到原分辨率视频。本发明根据应用需求,提供可伸缩的视频编码。
-
-
-
-
-
-
-
-
-