-
公开(公告)号:CN119808988A
公开(公告)日:2025-04-11
申请号:CN202411731983.6
申请日:2024-11-29
Applicant: 上海人工智能创新中心 , 上海交通大学
Abstract: 本发明涉及一种基于多模态概率保形蒸馏的缺失模态鲁棒性增强训练方法,包括以下步骤:获取模态完整的第一多模态训练集,定义辅助指示向量表示模态是否缺失,从而构建存在模态缺失的第二多模态训练集;将第二多模态训练集中的每一输入模态分别映射为单独的D维正态分布,并融合得到融合D维正态分布;基于自蒸馏框架进行端到端蒸馏,在训练阶段,教师模型处理第一多模态训练集,提供完整模态表征,学生模型处理第二多模态训练集,提供完整模态表征监督,基于每一输入模态单独的D维正态分布、融合D维正态分布和完整模态表征计算概率极值优化损失和几何一致优化损失,构建损失函数进行模型训练。与现有技术相比,本发明具有能够提高了信息迁移的有效性、提升了模型对缺失模态的处理能力等优点。
-
公开(公告)号:CN118607661A
公开(公告)日:2024-09-06
申请号:CN202410669693.7
申请日:2024-05-28
Applicant: 上海人工智能创新中心 , 上海交通大学
IPC: G06N20/00
Abstract: 本发明涉及一种基于近似全局扰动的联邦学习本地锐度优化方法和系统,方法应用于联邦学习中的本地节点,所述优化方法包括如下步骤:获取全局模型,基于获取到的全局模型以及上一次获取到的全局模型,计算近似后的全局扰动;基于预置的本地模型以及所述近似后的全局扰动,计算本地损失;基于所述本地损失以及预设的本地学习率,更新所述本地模型的参数,实现计及全局扰动的本地锐度优化。与现有技术相比,本发明实现了基于近似全局扰动的联邦学习本地锐度优化,具有计算开销小、应用场景广等优点。
-
公开(公告)号:CN114022475B
公开(公告)日:2024-08-02
申请号:CN202111397389.4
申请日:2021-11-23
Applicant: 上海交通大学
IPC: G06T7/00 , G06V10/44 , G06V10/764 , G06V10/77 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明提供了一种基于自监督掩膜的图像异常检测和异常定位方法及系统,涉及计算机视觉和图像处理技术领域,该方法包括:掩膜随机生成步骤、掩膜初始化步骤、生成初始化掩膜、图像特征提取步骤、图像重建步骤、重建图像对齐步骤、掩膜更新步骤、掩膜更新终止决策步骤以及异常评定步骤。本发明通过引入自监督掩膜的训练,提高了异常检测算法的异常定位能力,从而在异常检测和异常定位任务上取得较好的性能。
-
公开(公告)号:CN117422149A
公开(公告)日:2024-01-19
申请号:CN202311225428.1
申请日:2023-09-21
Applicant: 上海人工智能创新中心 , 上海交通大学
IPC: G06N20/00
Abstract: 本发明涉及一种基于梯度修正和元学习的联邦学习方法、系统及存储介质,该方法包括:本地终端的模型训练过程,采用元学习框架来统一本地模型性能最大化和特征分布一致性的优化目标,所述元学习框架包括元训练阶段和元更新阶段,其中在元训练阶段仅关注本地模型向本地数据分布拟合,在元更新阶段同时进行本地数据分布拟合和特征空间一致性约束;服务器端的全局聚合过程,采用基于梯度修正的参数聚合技术,通过计算不同终端节点贡献的梯度向量之间的一致性,动态调整各梯度向量的贡献权重值,并使用更新后的权重值聚合得到新的全局模型。与现有技术相比,本发明具有实现了全局模型的强泛化性和本地模型的高性能兼顾等优点。
-
公开(公告)号:CN113628109B
公开(公告)日:2023-11-28
申请号:CN202110804781.X
申请日:2021-07-16
Applicant: 上海交通大学
IPC: G06T3/40 , G06V10/772 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于可学习字典的人脸五官超分辨率方法和系统、介质,所述方法包括:根据高清五官图片所对应的低清五官图片构建可学习的字典,字典词条对应高清五官图片中的低频部分;根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条对应高清五官图片中的高频部分;根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片。所述系统包括与所述各步骤相对应的模块。本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。
-
公开(公告)号:CN116935399A
公开(公告)日:2023-10-24
申请号:CN202310913202.4
申请日:2023-07-24
Applicant: 上海交通大学
IPC: G06V30/148 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/084
Abstract: 本发明提供了一种开放词汇语义分割方法及系统,包括:将目标类别文本分解为属性文本的集合;使用视觉特征提取器将目标图片编码为视觉特征;使用文本特征提取器将属性文本编码为属性特征;将视觉特征和属性特征一起送入属性聚合网络,得到分割概率图,使用阈值法将其转换为分割结果;计算预测的分割结果和真实分割掩码的损失,利用梯度下降法进行训练;使用训练好的模型,对测试图像和测试属性文本进行推理,得到测试图像分割结果。本发明提出分解‑聚合的策略,大幅提升了开放词汇语义分割的准确性。
-
公开(公告)号:CN110648317B
公开(公告)日:2023-06-30
申请号:CN201910881871.1
申请日:2019-09-18
Applicant: 上海交通大学
IPC: G06T7/00 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08 , G16H30/20
Abstract: 本发明提供了一种适用于脊柱转移肿瘤骨质的质量分类方法及系统,所述方法包括:从DICOM文件中获取病人的CT图像数据,根据阈值提取的方法裁剪出脊椎椎体的区域;将骨质质量分类任务建模为成骨分类子任务和溶骨分类子任务,并使用多层感知机将两个子任务的结果进行合并;对于每一张横截面的CT图像,使用多任务学习的方式,同时学习骨质质量分类任务和后外侧受损情况分类任务,并共享不同任务的特征图;使用自步学习的方式,让模型优先学习容易的样本,再逐渐学习较为困难的样本。本发明通过同时学习多个相关的任务并特征共享,以及使用从易到难的自步学习方法,实现了对脊柱转移肿瘤骨质质量的精确分类。
-
公开(公告)号:CN114972871A
公开(公告)日:2022-08-30
申请号:CN202210617656.2
申请日:2022-06-01
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于图像配准的少样本图像异常检测方法及系统,包括:对支撑图像和待检测图像提取图像的高维特征;对图像的高维特征进行特征的空间变换得到变换的图像特征;对变换的图像特征实现特征编码;对编码特征实现特征配准;对变换的图像特征拟合支撑图像的特征分布得到特征分布模型;对变换的图像特征和特征分布模型实现图像异常评定。本发明针对目前异常检测方法存在的问题,提出一种基于图像配准的少样本异常检测方法,本发明利用已知类别物体数据训练可推广的通用模型,不需要对新类别物体数据重新训练模型,而是仅利用少样本的新类别数据,即可应用于新类别物体的异常检测任务。
-
公开(公告)号:CN114120189A
公开(公告)日:2022-03-01
申请号:CN202111388139.4
申请日:2021-11-22
Applicant: 上海交通大学
Abstract: 本发明提供了一种渐进式特权信息蒸馏的在线动作检测方法及系统,包括:步骤S1:对未经裁剪的视频使用视频特征提取网络进行特征提取,得到能够表达视频语义信息的视频特征序列;步骤S2:截取当前时刻之后不同时长的视频,并利用相应的视频特征序列分别对多个不同的离线教师模型进行训练;步骤S3:利用提取的视频特征序列对在线学生模型进行训练,得到训练后的在线学生模型;步骤S4:将离线教师模型和在线学生模型在模型层面的不同层次间进行特征对齐;步骤S5:特征对齐后,在线学生模型通过渐进式模型蒸馏的方式向多个不同的离线教师模型学习;步骤S6:利用提取的视频特征序列根据蒸馏学习后的的在线学生模型预测当前时刻动作检测的结果。
-
公开(公告)号:CN113936174A
公开(公告)日:2022-01-14
申请号:CN202111190861.7
申请日:2021-10-13
Applicant: 上海交通大学
Abstract: 本发明提供了一种单帧监督视频时序动作检测与分类方法及系统,包括:根据输入长视频提取视频特征图;将视频特征图映射为动作种子帧概率图;产生动作种子帧位置;根据动作种子帧位置将输入长视频划分为若干个单实例视频片段;将单实例视频片段特征映射为动作位置提案;将动作位置提案映射为时序位置掩膜;基于时序位置掩膜获取单实例视频片段中的动作特征、背景特征;将动作特征、背景特征映射为动作类别概率、背景类别概率;基于动作位置提案、动作类别概率产生视频的检测与分类结果。本发明采用分而治之的策略将单帧监督时序动作检测与分类任务化繁为简,实现更完整、更精确的时序动作检测与分类。
-
-
-
-
-
-
-
-
-