一种基于点标注指引的混合监督目标检测方法及装置

    公开(公告)号:CN117953206A

    公开(公告)日:2024-04-30

    申请号:CN202410342956.3

    申请日:2024-03-25

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于点标注指引的混合监督目标检测方法及装置,涉及计算机视觉技术领域。所述方法包括:构建点注意力模块,所述点注意力模块包括位置编码层、映射层和交叉注意力层,所述位置编码层用于将输入的点的坐标进行位置编码,再通过映射层得到对应的点特征向量;交叉注意力层用于将骨干网络输出的每层的特征图与映射层输出的点特征向量进行交叉注意力计算,以实现利用点标注去指导模型关注重要的区域;将所述点注意力模块插入骨干网络和Transformer网络/CNN网络之间得到混合监督目标检测模型;混合监督目标检测模型训练时,将图片和对应的点标注信息作为输入,在混合监督目标检测模型训练完成后,只需输入图片即可实现目标检测。

    一种基于预聚类引导的视频文本跨模态检索方法

    公开(公告)号:CN116186328A

    公开(公告)日:2023-05-30

    申请号:CN202310012387.1

    申请日:2023-01-05

    Applicant: 厦门大学

    Abstract: 一种基于预聚类引导的视频文本跨模态检索方法,涉及视频文本跨模态检索。针对无标注数据集上,无监督训练视频文本跨模态检索模型时,存在样本对构建不合理而导致监督信息弱的问题:1)提取训练数据集的视频、文本原始特征;2)拼接时间对齐的归一化原始特征作为统一特征,设定一组阈值多次DBSCAN聚类产生多组聚类簇;3)每个聚类簇的视频、文本特征分别计算均值作为聚类中心;4)采样一批训练样本,对于每组聚类中心,视频、文本分别寻找距离最近的中心构建伪标签,构建视频文本正样本对;5)将原始特征投影至共同空间,以多组中心对应的正样本计算损失加权组合,反向传播更新投影模型;6)重复4)~5)至达到预定的训练轮数。

    基于图像低级外观信息和高级语义信息结合的候选区域生成方法

    公开(公告)号:CN115984649A

    公开(公告)日:2023-04-18

    申请号:CN202310016366.7

    申请日:2023-01-06

    Applicant: 厦门大学

    Abstract: 基于图像低级外观信息和高级语义信息结合的候选区域生成方法,涉及无监督情况下开放类别候选区域的生成。1)采用候选区域生成器对图像进行初始的候选区域生成;2)利用基于对比的文本‑图像预训练模型对初始候选区域进行视觉特征的提取、对数据集的类别名称进行文本特征的提取,计算二者之间的余弦相似度和相似熵;3)对初始候选区域进行超像素分割,计算候选区域对应的超像素跨越分数;4)结合初始分数、相似熵和超像素跨越分数选择候选区域作为伪标签,以超像素跨越分数和余弦相似度为损失函数的权重,对候选区域中的正样本框进行坐标回归的训练,得到更高质量的候选区域。即插即用,提高生成的候选区域的精确率,具有良好的泛化性。

    一种基于潜层特征相似度的对抗训练方法

    公开(公告)号:CN115906994A

    公开(公告)日:2023-04-04

    申请号:CN202310012390.3

    申请日:2023-01-05

    Applicant: 厦门大学

    Abstract: 一种基于潜层特征相似度的对抗训练方法,涉及神经网络训练。针对正常样本和对抗样本潜层特征关系的差异性,提出一种基于约束正常样本和对抗样本潜层特征相似度的对抗训练方法。包括以下步骤:步骤一:挑选一批样本xclean,通过迭代攻击算法T步,得到对抗样本xadv。步骤二:将纯净样本和对抗样本同时输入到神经网络中;用LFRC正则和普通的对抗训练算法来计算梯度,对神经网络的参数θ进行更新。步骤三:整个数据集是否训练完毕,否则跳回步骤一。步骤四:神经网络是否收敛,若不收敛,跳回步骤一。否则输出神经网络fθ。训练结束后,便得到一个具有对抗鲁棒性的神经网络。

    一种基于任务扩增的迁移攻击方法

    公开(公告)号:CN114444690A

    公开(公告)日:2022-05-06

    申请号:CN202210100372.6

    申请日:2022-01-27

    Applicant: 厦门大学

    Abstract: 一种基于任务扩增的迁移攻击方法。对于每张干净样本,迭代地生成对应的对抗样本,在每次迭代的过程中,从数据扩增和模型扩增两个方面构造攻击任务,在数据扩增方面,对图片进行随机调整大小和随机填充,在模型扩增方面,通过随机改变模型的部分结构来实现模型扩增,并且为了不影响模型的预测结果,只修改模型的反向传播过程;构造完攻击任务之后,将任务划分为支持集和查询集两个集合,然后根据元学习的核心观念,先在支持集上生成一个暂时的扰动,然后再在查询集上对这个暂时的扰动进行微调,最终的扰动更新由支持集和查询集上的梯度共同决定。能够让对抗扰动在所构造的任务上充分泛化,不会对单一的图像模式或单一的模型过拟合。

    行人重识别系统的实现方法

    公开(公告)号:CN108596010B

    公开(公告)日:2020-09-04

    申请号:CN201711493983.7

    申请日:2017-12-31

    Applicant: 厦门大学

    Abstract: 行人重识别系统的实现方法,涉及行人重识别技术。包括以下步骤:1)对监控视频进行离线建模,具体包括行人检测和行人特征提取;2)在线检索:在进行在线检索时,共进行两个排序,首先对于每个视频中的行人按照同检索目标的相似度进行排序,然后对于所有检索视频计算一个包含检索目标的可能性,将视频进行排序。在实际应用中采用将深度特征和手工特征相结合的方法。采用融合分类损失和三元组损失两种损失函数的网络结构进行深度特征学习,两种损失函数的融合充分利用了数据集的标签信息以及图像对的相似性信息,使得在数据集较小的情况下也可以获得有效的具有区分性的行人特征。采用改进的三元组损失函数,训练效果更优。

    一种基于序列保留哈希的超低复杂度图像检索方法

    公开(公告)号:CN106777038B

    公开(公告)日:2019-06-14

    申请号:CN201611127943.6

    申请日:2016-12-09

    Applicant: 厦门大学

    Abstract: 一种基于序列保留哈希的超低复杂度图像检索方法,涉及图像检索。对于图像库中的图像,随机选取一部分图像作为训练集,并抽取相应的图像特征;采用非线性主成分分析方法将原图像特征降低维度到与哈希编码相同的长度;利用K‑means聚类算法得一系列的支撑点,作为后续哈希函数学习的基础;通过迭代优化学习对应的哈希函数;输出对应的哈希函数并计算整个图像库的哈希编码;对于查询图像,先抽取对应的GIST特征,根据训练得到的哈希编码函数对图像特征进行哈希编码,之后计算查询图像的哈希编码与图像库中的图像特征编码之间的汉明距离,利用汉明距离大小衡量查询图像与图像库中待检索图像之间的相似性,返回相似度高的图像。

Patent Agency Ranking