-
公开(公告)号:CN108537136A
公开(公告)日:2018-09-14
申请号:CN201810224187.1
申请日:2018-03-19
Applicant: 复旦大学
CPC classification number: G06K9/00785 , G06K9/00362 , G06K9/629 , G06N3/08
Abstract: 本发明属于计算机图象识别技术领域,具体为基于姿态归一化图像生成的行人重识别方法。本发明的具体步骤包括:行人平均姿态和属性特征的预测;姿态归一化图像生成模型的构建、训练和测试,生成8张不同姿态的行人图像;行人重识别特征提取网络的构建、训练和测试,得到行人重识别特征;最后行人重识别特征融合,获得待检测行人目标以及所有候选行人目标的特征。本发明方法具有速度快、精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点,非常适用于视频行人监控、视频行人信息检索等实际应用。
-
公开(公告)号:CN107527318A
公开(公告)日:2017-12-29
申请号:CN201710582794.0
申请日:2017-07-17
Applicant: 复旦大学
CPC classification number: G06T3/0012 , G06K9/00228 , G06N3/084
Abstract: 本发明属于计算机图像处理技术领域,具体为一种基于生成对抗式网络模型的发型更换方法。自动更换发型在分类和图像编辑领域都有很多实际应用,本发明诉诸于这一要求,首先提供一个新的大型发型数据集,HAIRSTYLE30k,包含64种不同类型的30K图像组成的发型,同时,提供一个自动生成和修改发型的模型H-GAN,来实现自动更换发型。本发明在基础的生成对抗式网络模型上做了改进,可以高效地学习新数据集,不仅在基础数据集上表现良好,在新数据集上也有很好的可泛化性。
-
公开(公告)号:CN107292870A
公开(公告)日:2017-10-24
申请号:CN201710424243.1
申请日:2017-06-07
Applicant: 复旦大学
CPC classification number: G06T7/001 , G06T7/11 , G06T7/136 , G06T2207/10004 , G06T2207/30108
Abstract: 本发明属于计算机故障检测技术领域,具体为一种基于图像对齐与检测网络模型的轨道塞钉故障检测方法与系统。本发明中,由铁轨巡检车记录正常的塞钉图像作为基准图像;工作人员在例行的铁轨巡检过程中,利用巡检车拍摄最新的铁轨状况,得到铁轨状况图像作为待检测图像,对当前待检测图像和基准图像进行对比分析处理,检测出铁轨中问题塞钉部件位置,从而进行及时更换问题塞钉,确保铁轨运行的安全;具体步骤包括:基于深度网络模型与显著区域的高铁轨道图像精确对齐,基于深度网络模型与环境变化补偿的轨道塞钉的故障检测。本发明基于深度网络模型进行图像对齐与环境变化补偿,具有更精确的识别性能与可靠性。
-
公开(公告)号:CN120014706A
公开(公告)日:2025-05-16
申请号:CN202510109511.5
申请日:2025-01-23
Applicant: 复旦大学
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06T5/50 , G06T3/4038 , G06T5/00 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种跨场景的动作识别方法,属于计算机视觉视频理解任务技术领域。本发明的跨场景的动作识别方法本发明首先训练一个暗转亮的扩散模型,结合基于正常光照数据预训练的大规模扩散模型中获得的先验知识,将输入的黑暗视频帧转换成光亮视频帧。在恢复采样过程中,将一种特定的时空注意力机制集成到训练好的条件扩散模型中,从而缓解基于图像训练的低光照增强方法引起的视频帧间的不连续性。随后设计特定自蒸馏分支并配置到动作识别骨干网络中,提取骨干网络各层之间的加权时空特征,以提高动作识别网络的泛化能力。相比于业内主流方法,本发明在现有的黑暗视频识别数据集上都取得了最先进的结果,同时比基线结果有大幅度的效果提升。
-
公开(公告)号:CN119991724A
公开(公告)日:2025-05-13
申请号:CN202411889134.3
申请日:2024-12-20
Applicant: 复旦大学
IPC: G06T7/194 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及计算机视觉领域,公开一种跨任务通用的前景分割方法,首先基于多尺度策略和掩码注意力机制构建统一的前景分割框架,引入二元查询,通过前景查询和背景查询表示图像中的前景和背景特征;通过边缘增强模块,采用卷积神经网络提取图像的边缘信息,并结合多尺度变形注意力机制,将边缘特征与图像的多尺度特征进行融合;将多尺度特征与二元查询一同输入至Transformer解码器中,应用掩码注意力机制,更新二元查询并获得精确的前景和背景分割掩码;利用多模态对比学习策略对前景和背景的分割结果进行精化,提高分割边界的精确度和细节保留效果。本发明的方法能够广泛应用于不同类型的前景分割任务,并在多个复杂场景下实现高精度的分割结果。
-
公开(公告)号:CN119649013A
公开(公告)日:2025-03-18
申请号:CN202411869000.5
申请日:2024-12-17
Applicant: 复旦大学
IPC: G06V10/25 , G06V10/40 , G06V10/764 , G06N3/045 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06V40/10
Abstract: 本申请涉及人工智能技术领域,具体涉及一种目标检测方法、电子设备、可读介质及程序产品。该方法可以预先收集类别词汇,基于类别词汇得到对应的类别描述扩展信息,用于提取包括各个对象类别对应文本特征的语言原型,并基于类别词汇获取对应的参考图像,用于提取包括各个对象类别对应图像特征的视觉原型,从而可以将待检测图像中所提取的特征,分别与上述语言原型及视觉原型中包含的特征进行匹配,基于匹配结果得到待检测图像中对象的类别。如此,能够基于语言模态、视觉模态的丰富先验信息,对待检测图像中对象进行分类,实现复杂场景下对各类对象的高精度检测。
-
公开(公告)号:CN119483814A
公开(公告)日:2025-02-18
申请号:CN202311018773.8
申请日:2023-08-11
Abstract: 本申请实施例提供一种通信方法及相关系统、存储介质,包括:接收来自网络设备的第一码流和重构的第一扰动系数,所述第一码流包含第一信源对应的第一块划分结果,所述重构的第一扰动系数表征所述第一信源的分布特征;向所述网络设备发送第二码流,所述第二码流是基于第二信源、所述第一码流和所述重构的第一扰动系数得到的,所述第二码流的维度小于所述第二信源的维度。基于网络设备反馈的第一信源的第一块划分结果及重构的扰动系数,可以让第二终端获取第一信源的图像分布信息,进而可以更有效的提取分布式信源间的相关性,减少传输冗余。
-
公开(公告)号:CN119449397A
公开(公告)日:2025-02-14
申请号:CN202411503194.7
申请日:2024-10-25
Applicant: 复旦大学
Abstract: 本发明提供了一种基于强化学习的多模态大模型黑盒防御方法及装置,具有这样的特征,包括以下步骤:步骤S1,通过图像净化器对越狱图像进行净化生成净化图像,并通过文本净化器对越狱文本进行净化生成净化文本;步骤S2,将净化文本输入良性引导生成器生成引导文本;步骤S3,将净化文本和引导文本进行拼接,得到拼接文本;步骤S4,将拼接文本和净化图像一同输入多模态大模型,生成良性回复。总之,本方法能够提高多模态大模型对越狱攻击的防御能力,并对输入生成对应的良性回复。
-
公开(公告)号:CN119415728A
公开(公告)日:2025-02-11
申请号:CN202411503191.3
申请日:2024-10-25
Applicant: 复旦大学
IPC: G06F16/583 , G06F16/58 , G06F40/30 , G06N5/04
Abstract: 本发明提供了一种针对大型视觉语言模型的多模态黑盒攻击方法及装置,具有这样的特征,包括步骤S1构建对应的系统提示词和对话模版;步骤S2对各个攻击策略根据越狱目标构和视觉语言模型生成第一轮的攻击文本提示和攻击图像提示;步骤S3根据攻击图像提示生成对应的攻击图像;步骤S4将攻击图文对分别输入目标模型得到对应的响应回复;步骤S5将对应的攻击图文对和响应回复添加至历史数据;步骤S6判断越狱攻击是否成功,若是则得到越狱图文对,若否则执行步骤S7;步骤S7,对越狱不成功的攻击策略生成下一轮的攻击文本提示和攻击图像提示并执行步骤S3。总之,本方法能够生成越狱图文对并检测视觉语言模型的安全性能。
-
公开(公告)号:CN119360174A
公开(公告)日:2025-01-24
申请号:CN202411907227.4
申请日:2024-12-24
Applicant: 复旦大学
IPC: G06V10/80 , G06V10/25 , G06V10/774 , G06V10/764 , G06V10/44
Abstract: 本发明提供了一种跨域信息融合的目标检测方法及装置,具有这样的特征,包括双流目标检测模型,其包括:特征提取模块,对配准的模态A图像进行特征提取得到高级语义特征A,并对配准的模态B图像进行特征提取得到高级语义特征B;多尺度增强模块,对高级语义特征A和高级语义特征B构成的特征对进行多尺度增强,得到增强输入特征对;融合模块,对增强输入特征对进行空间级多模态交互和通道级多模态交互,得到多模态特征;目标检测模块,根据多模态特征生成检测框和对应的类别的置信度作为检测结果。总之,本方法能够实现复杂场景下各类目标的准确检测。
-
-
-
-
-
-
-
-
-