-
公开(公告)号:CN112434553B
公开(公告)日:2024-04-19
申请号:CN202011105896.1
申请日:2020-10-15
Applicant: 北京工业大学
IPC: G06V20/40 , G06V10/75 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明实施例提供一种基于深度字典学习的视频鉴别方法及系统,该方法包括:获取目标视频中的若干关键帧图像;将每一关键帧图像输入到视频指纹生成网络中,获取目标视频的指纹,其中,视频指纹生成网络包括字典,字典用于进行稀疏矩阵的计算;将目标视频的指纹与预设数据库中的每一备用视频的指纹进行匹配,根据匹配结果对目标视频进行鉴别。本发明实施例利用深度学习和多层字典学习提取视频的特征稀疏矩阵,形成视频指纹,并进行指纹数据库的构建和目标视频的指纹匹配,实现对数字视频的鉴别。
-
公开(公告)号:CN112801192B
公开(公告)日:2024-03-19
申请号:CN202110148551.2
申请日:2021-01-26
Applicant: 北京工业大学
IPC: G06F18/213 , G06F18/214 , G06N3/0464 , G06N3/084
Abstract: 一种基于深度神经网络的扩展LargeVis图像特征降维方法属于图像处理领域。现有Largevis降维方法是利用数据间的距离关系而进行降维操作过程,因此无法实现对单一的高维数据进行降维。该方法利用深度神经网络对LargeVis隐式的高维数据到低维数据的映射关系进行建模,构建出映射函数f,使得LargeVis算法能够实现对单一高维数据的降维,同时能够取得更优良的降维性能。
-
公开(公告)号:CN113066111B
公开(公告)日:2024-03-01
申请号:CN202110274467.5
申请日:2021-03-12
Applicant: 北京工业大学
Abstract: 一种基于CT影像的心脏二尖瓣顶点的自动定位方法属于医学图像解析领域。本发明首先基于深度神经网络对CT图像进行图像预处理,以实现CT图像关键特征提取与表达;然后,利用深度强化学习模型针对基于智能体智能体的CT影像标志点进行定位,对心脏二尖瓣顶点位置进行自动检测。本发明提出了一种最优路径的搜索策略,可以非常方便地在CT图像中实现计算机自动定位心脏二尖瓣顶点的位置供医生进行疾病诊断,同时随着人工指定定位位置的变化,也具备一定的扩展性,在医学图像解析上下文中有利地创建了机器图像理解。
-
公开(公告)号:CN114339030A
公开(公告)日:2022-04-12
申请号:CN202111429346.X
申请日:2021-11-29
Applicant: 北京工业大学
IPC: H04N5/232 , G06K9/62 , G06N3/04 , G06N3/08 , H04N19/42 , H04N19/503 , H04N21/2187
Abstract: 本发明提供了一种基于自适应可分离卷积的网络直播视频稳像方法。该方法包括:建立视频帧样本库、网络模型搭建、网络训练、视频稳像。将所述得到的训练数据集输入视频稳像网络中,得到所述稳像模型输出的稳定视频帧;其中,所述稳像模型利用自适应可分离卷积和可变形卷积,将预测得到的卷积核应用在输入的两帧连续帧上,以生成稳定的中间帧。本发明通过直接生成中间帧的方法进行稳像,避免了对稳像后的视频帧进行裁剪,从而保持原始视频的分辨率。
-
公开(公告)号:CN114118127A
公开(公告)日:2022-03-01
申请号:CN202111205085.3
申请日:2021-10-15
Applicant: 北京工业大学 , 国家计算机网络与信息安全管理中心
Abstract: 本申请实施例涉及一种视觉场景标志的检测与识别方法及装置,该方法包括:通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据;基于多尺度特征融合网络模型,对视觉场景标志训练数据进行视觉场景标志的检测与识别;其中,多尺度特征融合网络模型基于以下步骤获得:构建多尺度特征融合网络模型;基于视觉场景标志合成数据对多尺度特征融合网络模型进行第一训练,得到第一训练后的多尺度特征融合网络模型;基于预先标注的视觉场景标志对第一训练后的多尺度特征融合网络模型进行第二训练,得到训练好的多尺度特征融合网络模型。本申请实施例能够提升视觉场景标志检测与识别的精准度和速度。
-
公开(公告)号:CN114004760A
公开(公告)日:2022-02-01
申请号:CN202111234337.5
申请日:2021-10-22
Applicant: 北京工业大学
Abstract: 本发明提供一种图像去雾方法、电子设备、存储介质和计算机程序产品,方法包括获取待去雾的目标雾霾图像;将目标雾霾图像输入至去雾模型,对目标雾霾图像进行去雾处理,获得去雾模型输出的目标去雾图像,去雾模型是基于不成对的清晰图像和雾霾图像构成的训练图像集,对待训练模型进行无监督训练得到的,待训练模型包括用于进行加雾转换处理和去雾转换处理的多尺度注意力模块,及用于区分训练图像集的真实图像和多尺度注意力模块的生成图像的判别器。本发明的去雾模型是基于不成对的清晰图像和雾霾图像构成的训练图像集进行无监督训练得到的,从而避免成对图像训练集对去雾模型训练的限制,进而提高图像去雾的性能。
-
公开(公告)号:CN113989269A
公开(公告)日:2022-01-28
申请号:CN202111343980.1
申请日:2021-11-14
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于卷积神经网络多尺度特征融合的中医舌图像齿痕自动检测方法,以卷积神经网络VGG16作为基础网络提取特征;提出了多尺度特征融合模块和特征增强模块,分别用于对卷积神经网络的不同尺度特征进行融合,并对融合后的特征进行增强,形成4个检测层;最后采用SSD方法在这4个检测层上分别进行齿痕检测,并采用非极大值抑制方法对各个检测结果进行融合,得到最终的齿痕检测结果。本发明可以提高各检测层的特征表达能力,实现中医舌图像中齿痕的自动、准确检测,在检测精度上与传统方法相比具有明显优势,可以满足实际应用需求。本发明大大降低了网络模型的复杂度。本方法在检测精度上具有明显的优势,可以满足实际的应用需求。
-
公开(公告)号:CN110363716B
公开(公告)日:2021-11-19
申请号:CN201910552748.5
申请日:2019-06-25
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于条件生成对抗网络复合降质图像高质量重建方法,该方法基于条件生成对抗网络对无人机航拍、视频监控、智能交通等户外视觉系统中复合降质图像进行高质量重建,包括整体流程、复合降质图像样本库的建立、网络模型搭建与训练、复合降质图像高质量重建部分。通过条件生成对抗网络对无人机航拍、视频监控、智能交通等户外视觉系统得到的复合降质图像进行统一高质量重建。本发明提出了建立对应清晰‑复合降质图像样本库的方案;采用条件生成对抗网络,建立一种复合降质图像高质量重建方法,可完成存在雾霾、模糊、压缩效应等复合降质图像的统一重建;采用轻型的网络,不仅提高了图像重建速度,也更利于此方法在实践中的应用。
-
公开(公告)号:CN113542780A
公开(公告)日:2021-10-22
申请号:CN202110649651.3
申请日:2021-06-10
Applicant: 北京工业大学
IPC: H04N21/2187 , H04N21/44 , H04N19/86 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种网络直播视频的压缩伪影去除方法,该方法包括:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频;其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。本发明可以在未知压缩码率的状况下,通过使用单个网络模型来恢复压缩视频,从而可以提供高质量的网络直播视频。
-
公开(公告)号:CN109840509B
公开(公告)日:2020-12-01
申请号:CN201910119305.7
申请日:2019-02-15
Applicant: 北京工业大学
Abstract: 本发明提供了一种网络直播视频中不良主播的多层次协同识别方法及装置,涉及视频处理的技术领域,包括:从目标视频中提取图像样本、弹幕样本和语音样本;根据图像样本、弹幕样本和语音样本分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D‑S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列;根据视频分类序列识别出目标视频的行为分类。通过融合图像、语音和弹幕三个识别结果,提高了视频识别的鲁棒性,提高了网络直播视频中主播的不良行为的识别精度。
-
-
-
-
-
-
-
-
-