-
公开(公告)号:CN111698514B
公开(公告)日:2022-04-15
申请号:CN201910184099.8
申请日:2019-03-12
Applicant: 北京大学
IPC: H04N19/176 , H04N19/51 , H04N19/146 , H04N19/149 , H04N19/109 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的多模式分像素插值方法,其步骤包括:1)差分预测网络对输入的已编码的整像素参考块采用两种模式进行预测,生成两种模式下的分像素预测值;模式一、差分预测网络预测所有目标亚像素到该整像素参考块的左上角整像素的残差,并将左上角整像素与预测残差相加,得到一组目标亚像素值;模式二、差分预测网络预测目标亚像素与该整像素参考块的左上角之外的一整像素的残差,计算对应的目标亚像素预测值;2)编码器分别使用已有插值方法生成的亚像素级参考块、模式一和模式二生成的亚像素级参考块,对待编码块进行帧间编码,然后基于三种编码的编码效果选择最佳亚像素级参考块,并将供解码器端使用的相应信息存储到码流。
-
公开(公告)号:CN113259676A
公开(公告)日:2021-08-13
申请号:CN202010084834.0
申请日:2020-02-10
Applicant: 北京大学
IPC: H04N19/182 , H04N19/124 , H04N19/42 , G06T9/00 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的图像压缩方法和装置,主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。
-
公开(公告)号:CN111698514A
公开(公告)日:2020-09-22
申请号:CN201910184099.8
申请日:2019-03-12
Applicant: 北京大学
IPC: H04N19/176 , H04N19/51 , H04N19/146 , H04N19/149 , H04N19/109 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的多模式分像素插值方法,其步骤包括:1)差分预测网络对输入的已编码的整像素参考块采用两种模式进行预测,生成两种模式下的分像素预测值;模式一、差分预测网络预测所有目标亚像素到该整像素参考块的左上角整像素的残差,并将左上角整像素与预测残差相加,得到一组目标亚像素值;模式二、差分预测网络预测目标亚像素与该整像素参考块的左上角之外的一整像素的残差,计算对应的目标亚像素预测值;2)编码器分别使用已有插值方法生成的亚像素级参考块、模式一和模式二生成的亚像素级参考块,对待编码块进行帧间编码,然后基于三种编码的编码效果选择最佳亚像素级参考块,并将供解码器端使用的相应信息存储到码流。
-
公开(公告)号:CN113259676B
公开(公告)日:2023-01-17
申请号:CN202010084834.0
申请日:2020-02-10
Applicant: 北京大学
IPC: H04N19/182 , H04N19/124 , H04N19/42 , G06T9/00 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的图像压缩方法和装置,主要用于图像的编码压缩,即将原始图像信号,利用其冗余性,压缩编码成二进制码流,并且尽可能地使得原本的图像信号在解码时得以还原重建。本发明基于卷积神经网络,使用多尺度超先验结构,充分利用超先验表示信息进行重建,实现了全可并行网络结构,可以有效地提高图像压缩性能,尤其是针对高分辨率图像有明显优化。
-
公开(公告)号:CN109101858B
公开(公告)日:2022-02-18
申请号:CN201710470470.8
申请日:2017-06-20
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供的动作识别方法及装置确定接收视频数据中的目标帧和目标帧之前的连续若干帧,并在视频数据中提取该目标帧的数据信息和该目标帧之前的连续若干帧的数据信息。对预设个数的增益参数、目标帧的数据信息和目标帧之前的连续若干帧的数据信息进行预设次数的卷积处理,获得高阶特征数据,将该高阶特征数据添加至视频数据中,形成待提取数据,对待提取数据进行时序特征提取,获得特征向量,最后根据特征向量获取动作识别结果,从而可以提取到视频数据的高阶特征,进而提高动作识别的准确度。
-
公开(公告)号:CN113132755A
公开(公告)日:2021-07-16
申请号:CN201911415561.7
申请日:2019-12-31
Applicant: 北京大学
IPC: H04N21/2343 , H04N21/4402 , H04N19/132 , H04N19/13
Abstract: 本发明公开了一种可扩展人机协同图像编码方法及编码系统。本方法为:提取各样本图片的边缘图并矢量化,作为驱动机器视觉任务的紧凑表示;在矢量化后的边缘图中进行关键点提取作为辅助信息;对紧凑表示和辅助信息分别进行熵编码无损压缩,获得两路码流;对两路码流进行初步解码,获得边缘图以及辅助信息;将解码得到的边缘图以及辅助信息输入生成神经网络中,进行网络的前向计算;根据得到的计算结果与对应原始图片进行损失函数计算,并将计算的损失反向传播到神经网络进行网络权值更新直到神经网络收敛,得到双路码流解码器;获取待处理图像的边缘图和辅助信息并编码压缩后得到两路码流;双路码流解码器对收到的码流解码,重建图像。
-
公开(公告)号:CN113132735A
公开(公告)日:2021-07-16
申请号:CN201911392082.8
申请日:2019-12-30
Applicant: 北京大学
IPC: H04N19/503 , H04N19/136 , H04N19/42 , H04N19/124 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于视频帧生成的视频编码方法,其步骤包括:训练神经网络:每次训练迭代时,从样本视频训练集中抽取一个视频片段的两帧Ik和It送入神经网络中,生成对It的预测计算和目标帧It之间的L1范数并将其反向传播到神经网络,直到神经网络收敛;编码阶段:编码端利用神经网络提取已编码的参考帧和目标待编码非关键帧之间的稀疏运动表征,生成预测帧;将预测帧加入参考帧列表进行帧间预测,然后将帧间预测信息和稀疏运动表征发送给解码端;解码阶段:解码端根据重建的参考帧和传输的稀疏运动表征估计到目标帧的稠密运动信息并生成目标帧;然后将生成的目标帧加入参考帧列表并利用帧间预测信息进行目标帧的重建。
-
公开(公告)号:CN109101858A
公开(公告)日:2018-12-28
申请号:CN201710470470.8
申请日:2017-06-20
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06K9/00
Abstract: 本发明提供的动作识别方法及装置确定接收视频数据中的目标帧和目标帧之前的连续若干帧,并在视频数据中提取该目标帧的数据信息和该目标帧之前的连续若干帧的数据信息。对预设个数的增益参数、目标帧的数据信息和目标帧之前的连续若干帧的数据信息进行预设次数的卷积处理,获得高阶特征数据,将该高阶特征数据添加至视频数据中,形成待提取数据,对待提取数据进行时序特征提取,获得特征向量,最后根据特征向量获取动作识别结果,从而可以提取到视频数据的高阶特征,进而提高动作识别的准确度。
-
公开(公告)号:CN113537456B
公开(公告)日:2023-10-17
申请号:CN202110660867.X
申请日:2021-06-15
Applicant: 北京大学
IPC: G06N3/0464 , G06N3/048 , G06N3/082 , G06N3/084 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种深度特征压缩方法,本发明构建并训练一压缩模型,该模型首先对神经网络提取的图像特征表示进行变换,产生变换后的紧凑表示,提取变换后的表示的超先验码流;超先验码流用于产生码本各个基元素的线性组合系数;码本从特征中学习获得;根据线性组合系数和对应的码本产生超先验概率估计,从而使用熵编码器进行熵编码,产生码流;码流通过熵解码和解码变换产生输出的特征表示。本发明能够对深度特征进行有效压缩,而且能够对多个任务特征进行协同压缩,重建时,对特征进行分离操作,分别产生对应不同任务的重建特征;本发明还能够支持训练时未见的新任务。
-
公开(公告)号:CN113347422B
公开(公告)日:2022-07-12
申请号:CN202110521800.8
申请日:2021-05-13
Applicant: 北京大学
IPC: H04N19/13 , H04N19/176 , H04N19/50
Abstract: 本发明公开了一种粗粒度上下文熵编码方法。本方法为:1)从图像数据集中选取一原始图像并送入神经网络的编码器中进行编码;2)对编码后的张量进行划分;将每一子张量视为一待编码块;3)熵编码网络对每一待编码块进行上下文熵编码,获得待编码块的上下文信息;4)将每一上下文信息送入概率预测网络中,获得对应待编码块所有元素的概率分布参数;5)根据概率分布参数计算张量信息熵;将张量送入解码器,得到解码重建图像并计算失真项损失函数的损失值;6)根据步骤5)所得结果计算率失真损失函数的损失值并反向传播到神经网络各层;7)重复步骤1)‑6)直到神经网络收敛;8)将目标图像送入训练后的神经网络得到目标图像的编码。
-
-
-
-
-
-
-
-
-