一种基于深度语义空间的跨媒体检索方法

    公开(公告)号:CN108694200A

    公开(公告)日:2018-10-23

    申请号:CN201710230070.X

    申请日:2017-04-10

    Abstract: 本发明公布了一种基于深度语义空间的跨媒体检索方法,包括特征生成阶段和语义空间学习阶段;特征生成阶段通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量;利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。与现有方法相比,本发明能够显著提升跨媒体检索性能,具有广阔的应用前景和市场需求。

    一种低照度图像处理方法和装置

    公开(公告)号:CN105046658B

    公开(公告)日:2018-06-29

    申请号:CN201510363228.1

    申请日:2015-06-26

    Abstract: 一种低照度图像处理方法和装置,针对原有的低照度图像对比度增强技术中存在的噪声放大问题,提出在进行对比度增强操作前,加入噪声抑制滤波器,采用第一滤波系数和第二滤波系数对低照度图像的反色图像进行平滑处理,在增强图像对比度的同时抑制随机噪声。根据图像的局部块内特征,计算图像的纹理和噪声水平参数,根据纹理和噪声水平参数,对平滑处理后的第一平滑图像和第二平滑图像进行加权平均。针对反色图像的梯度图像进行纹理结构提取后得到纹理图像,将其与加权图像相加,对加权图像进行锐化,起到增强图像细节的作用。因此,可以有效增强低照度图像的对比度,滤除各种噪声,同时保留图像色彩和细节,得到清晰逼真的复原图像。

    一种用于P帧或B帧的帧内帧间组合预测方法

    公开(公告)号:CN107995489A

    公开(公告)日:2018-05-04

    申请号:CN201711381157.3

    申请日:2017-12-20

    CPC classification number: H04N19/107 H04N19/147 H04N19/159 H04N19/176

    Abstract: 本发明公布了一种用于P帧或B帧的帧内帧间组合预测的方法,通过率失真优化RDO决策自适应地选择是否使用所述帧内帧间组合预测;帧内帧间组合预测使用帧内预测块和帧间预测块加权的方法得到最终预测块;帧内预测块和帧间预测块的加权系数根据预测方法的预测失真统计得到;由此能够增加预测精度,提升预测块的编码和解码效率;本发明充分利用帧内预测和帧间预测的优势,选择这两种方法预测最优的部分组合在一起,而且可以一定程度上去除帧内预测块和帧间预测块失真过大的区域,获得更好的预测效果;实用性和鲁棒性俱佳。

    图像去模糊方法及系统
    75.
    发明授权

    公开(公告)号:CN105493140B

    公开(公告)日:2018-02-02

    申请号:CN201580000103.0

    申请日:2015-05-15

    CPC classification number: G06T5/003 G06K9/4671 G06T5/00 G06T7/11 G06T7/13

    Abstract: 一种图像去模糊方法,包括:估算中间图像L:标记输入图像的边缘区域和平滑区域,分别对边缘区域和平滑区域进行约束,获得中间图像L;估算模糊核k:提取中间图像L的显著边缘,显著边缘为边缘尺度大于模糊核的尺度的边缘,利用显著边缘计算模糊核k;复原输入图像:根据输入图像和估算模糊核k进行非盲反卷积,将输入图像复原成清晰图像。由于对边缘区域和平滑区域进行约束,使得获得的中间图像既能够保留边缘又能有效去除平滑区域的噪声和振铃效应,并利用中间图像L的显著边缘计算模糊核,使得模糊核的估算更加准确,最后,根据输入图像和估算的模糊核k进行非盲反卷积,将输入图像复原成清晰图像,达到了很好的去模糊效果。

    用于图像或视频中行人重识别的深度判别网络模型方法

    公开(公告)号:CN107273872A

    公开(公告)日:2017-10-20

    申请号:CN201710570245.1

    申请日:2017-07-13

    Abstract: 本发明公布了一种用于图像或视频中行人重识别的深度判别网络模型方法,通过构建深度判别网络,将不同输入图像在颜色通道上进行融合拼接,将得到的拼接结果定义为不同图像的原始差异性空间;将原始差异性空间送入卷积网络中,通过学习原始差异性空间中的差异性信息,网络输出两张输入图像之间的相似性,由此实现行人重识别。本发明不对单独的图像进行特征的学习,而是在一开始就将输入图像在颜色通道上进行融合拼接,利用设计好的网络在图像的原始空间上学习差异性信息;通过引入Inception模块,嵌入到模型之中,能够提高网络的学习能力,达到更好的判别效果。

    一种基于字典库的视频编解码方法及装置

    公开(公告)号:CN104053012B

    公开(公告)日:2017-08-29

    申请号:CN201410231054.9

    申请日:2014-05-28

    Abstract: 一种基于字典库的视频编解码方法及装置,该编码方法包括:将视频流中待编码的当前图像帧划分为若干图像块;采用纹理字典库的方式恢复当前图像帧前一帧的解码重建图像的编码失真信息,以得到恢复编码失真信息后的图像,并将恢复编码失真信息后的图像作为参考图像进行时域预测,得到待编码块的预测块;纹理字典库包括清晰图像字典和与所述清晰图像字典对应的失真图像字典;将待编码块与预测块相减得到残差块,对残差块进行处理得到视频码流。本申请提供的编解码方法及装置采用纹理字典库的方式恢复作为对待编码块(待解码块)进行预测的参考图像的编码失真信息,使得待编码块(待解码块)的预测块更加准确,从而提高编解码效率。

    一种针对三维图像的非对称拼接方法

    公开(公告)号:CN107046637A

    公开(公告)日:2017-08-15

    申请号:CN201710007243.1

    申请日:2017-01-05

    CPC classification number: H04N13/156 H04N13/161

    Abstract: 本发明公布了一种针对三维图像的非对称拼接方法,对三维左右视图像,通过使用非对称拼接,保持其中一个视点的分辨率不变,降低另一个视点的分辨率,从而减少三维视频中左右视画面其中一路的分辨率;包括对三维图像左右视图像中的一路进行切分;对切分后的图像进行下采样;下采样图像和另一路图像进行拼接。本发明提供的非对称拼接方法能够降低3D视频中某个视点的画面分辨率,减少3D视频中左右视画面其中一路的分辨率,降低视频压缩所需的码率,从而降低3D视频的数据量。

    一种全景图像的非对称映射方法

    公开(公告)号:CN106875331A

    公开(公告)日:2017-06-20

    申请号:CN201710037483.6

    申请日:2017-01-19

    CPC classification number: G06T3/0006

    Abstract: 本发明公布了一种全景图像的非对称映射方法,包括映射过程和反向映射过程;映射过程通过非对称前向映射方法将原始图转换成非对称图;包括:将经纬图坐标映射为原始全景图坐标;计算经纬图感兴趣区域横向和纵向上的最大下采样比例;建立从映射图到经纬图相同点坐标的映射关系;生成非对称映射图;反向映射过程通过非对称反向映射方法将非对称图反映射成原始图。原始图为任意格式的全景图。本发明对全景图像中的感兴趣区域使用较高的采样精度,对非感兴趣区域使用较低采样精度,由此降低图像分辨率,进而降低全景图像的数据量。

Patent Agency Ranking