基于低频特征和难样本调制策略的小样本目标检测方法

    公开(公告)号:CN117974981A

    公开(公告)日:2024-05-03

    申请号:CN202410169035.1

    申请日:2024-02-06

    Applicant: 福州大学

    Inventor: 柯逍 陈秋琴

    Abstract: 本发明涉及一种基于低频特征和难样本调制策略的小样本目标检测方法,包括:S1:获取小样本目标检测数据集并划分为基类和新类数据集;对图像中的部分像素进行随机遮盖,用来训练特征提取网络,以提高网络的泛化性能;S2:采用已训练的特征提取网络作为特征提取模块,引入低频模块,以提取图像中的不变特征;S3:设计调制策略来对难以识别的样本进行识别,避免模型过多关注难以识别的样本而过拟合;S4:设计基于调制策略的损失函数,并采用Faster‑RCNN目标检测模型进行训练;首先基于基类数据集得到目标检测结果,然后在新类数据集中冻结有关模块,对模型进行微调,得到小样本目标检测结果。该方法可以在少量样本的情况下,获得较好的目标检测性能。

    一种基于随机掩码和稠密匹配的3D人体姿态估计方法

    公开(公告)号:CN117911499A

    公开(公告)日:2024-04-19

    申请号:CN202410082963.4

    申请日:2024-01-19

    Applicant: 福州大学

    Inventor: 柯逍 石晓楠

    Abstract: 本发明涉及一种基于随机掩码和稠密匹配的3D人体姿态估计方法,包括以下步骤:步骤S1:获取3D人体姿态估计数据集,将视频数据集拆分成图片,形成2D和3D的人体姿态估计数据,并用关键帧选取算法抽取关键帧;步骤S2:利用基于随机掩码的DMFormer框架,自监督进行预训练;步骤S3:获取人体姿态估计数据集,划分训练集、测试集以及验证集,利用步骤S2中获得的预训练模型进一步进行训练,得到最终的3D姿态估计模型;步骤S4:利用基于稠密匹配的方法,进行关键帧前后帧的稠密光流估计,完成整个视频数据集的3D姿态估计。

    一种基于多层次细化的U-Transformer动作分割方法

    公开(公告)号:CN117893935A

    公开(公告)日:2024-04-16

    申请号:CN202310867051.3

    申请日:2023-07-14

    Applicant: 福州大学

    Inventor: 柯逍 缪欣

    Abstract: 本发明提出一种基于多层次细化的U‑Transformer动作分割方法,用于分割视频动作,包括以下步骤;步骤S1:对输入视频进行通过BRP网络提取视频特征;步骤S2:首先将提取的视频特征输入U‑Transformer编码器进行编码,通过邻域注意力对视频短期信息与长期信息进行聚合,而后通过解码器对编码特征突出特征表示;步骤S3:通过分类、平滑、circle三种损失对动作分割效果进行评估优化;步骤S4:调整U‑Transformer结构中感受野重复步骤S2、S3逐步动作分割细化分割效果;步骤S5:根据特征生成视频动作分割序列;本发明能够有效地对视频动作进行分割。

    一种基于Swin-Unet架构的多张高分辨率彩色图像隐藏方法

    公开(公告)号:CN117793371A

    公开(公告)日:2024-03-29

    申请号:CN202311852208.1

    申请日:2023-12-29

    Applicant: 福州大学

    Inventor: 柯逍 吴涣祺

    Abstract: 本发明涉及一种基于Swin‑Unet架构的多张高分辨率彩色图像隐藏方法,包括:S1、收集图像数据集构建训练数据集,并进行预处理和数据增强构建增强数据集,每一次迭代选取多张秘密图像和单张载体图像沿通道维度进行级联;S2、构建基于Swin‑Unet的编码网络,再对不同尺度的激活图计算自注意力以进行秘密图像的隐藏操作,输出编码图像;S3、构建基于Swin‑Unet的解码网络,再对不同尺度的激活图计算自注意力以进行秘密图像的解码操作,输出解码后的解密图像;S4、进行迭代训练,通过优化组合损失更新模型参数,根据验证编码以及解码准确率不断保存最优模型,最终得到隐写性能最好的模型权重。该方法能够实现在一张高分辨率的彩色载体图像中隐藏多张相同分辨率大小的秘密图像。

    一种基于语言大模型和视觉编码器的多模态网络谣言检测方法

    公开(公告)号:CN117763421A

    公开(公告)日:2024-03-26

    申请号:CN202311792049.0

    申请日:2023-12-25

    Applicant: 福州大学

    Inventor: 柯逍 吴尚辉

    Abstract: 本发明提供一种基于语言大模型和视觉编码器的多模态网络谣言检测方法,首先获取网络谣言检测数据集,将其中所有图片通过光学字符识别模型提取为文本,然后把查询文本、证据文本、从图片中提取的文本分别输入语言大模型得到对应的文本特征序列向量,把查询图片、证据图片分别输入视觉编码器得到对应的图片特征向量。通过多头注意力机制,计算查询信息对证据信息的注意力分数,并将其作为权重重新计算证据信息。随后将每条文本特征序列按序列长度维度取其平均值作为代表信息,最后将图片特征向量、请查询本特征向量、证据文本特征向量拼接,输入多层感知机后得出分类结果。

    一种基于ECA的改进YOLOv7道路非法小摊检测方法

    公开(公告)号:CN117576631A

    公开(公告)日:2024-02-20

    申请号:CN202311610015.5

    申请日:2023-11-28

    Applicant: 福州大学

    Abstract: 本发明提供一种基于ECA的改进YOLOv7道路非法小摊检测方法,包括:收集与非法小摊相关的有效素材,构建初始数据集;利用Automix和Augmentor技术对初始数据集进行数据增强处理;构建改进的YOLOv7网络,包括在YOLOv7网络中添加小目标检测头和注意力机制ECA模块;将道路非法小摊数据集输入到模型中,利用MPDIoU损失函数进行迭代,获得训练后的改进YOLOv7目标检测模型;对待检测的道路图像进行非法小摊检测,输出包含道路非法小摊区域检测框的检测图像。本发明采用城镇监控拍摄道路图像,对道路非法小摊能够进行快速且有效的识别。

    基于分割引导注意力网络的密集人群计数方法及系统

    公开(公告)号:CN117456454A

    公开(公告)日:2024-01-26

    申请号:CN202311425790.3

    申请日:2023-10-31

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于分割引导注意力网络的密集人群计数方法及系统,该方法包括以下步骤:步骤S1:对人群标签的点阵图进行转换,制作能够凸显前景与背景区域的真值分割图标签,以及真值密度图标签;形成训练数据集;步骤S2:构建改进ConvNext‑small网络模型,以使其同时适用于图像分割与人群计数任务;步骤S3:设计分割损失和计数损失,以提高模型对图片前景与背景区域的敏感性,且使其足以完成人群部分的计数任务,生成预测密度图;利用训练数据集训练模型,得到训练好的改进ConvNext‑small网络模型;步骤S4:通过训练好的模型获取待预测图片的预测密度图,再将预测密度图进行映射,获取该图片的预测人数。该方法及系统有利于提高人群计数的准确性。

    一种基于改进HAT注意力机制的YOLOv7车辆识别方法

    公开(公告)号:CN117253204A

    公开(公告)日:2023-12-19

    申请号:CN202311388030.X

    申请日:2023-10-25

    Applicant: 福州大学

    Inventor: 柯逍 刘炜祺

    Abstract: 本发明涉及一种基于改进HAT注意力机制的YOLOv7车辆识别方法,首先通过线上监控数据集和线下城镇监控摄像头的方式获取车辆数据集,将得到的数据集使用AlignMix方法进行增强处理。然后利用Labelimg标注应用实现对数据的标注处理,实现数据的可利用性。接着将得到的数据集分别作为训练集和验证集,并使用添加HAT注意力机制的YOLOv7目标检测算法,对数据集进行多次训练建模,并将得到的权重文件进行验证效果。再使用RSLOSS损失函数计算损失函数值。最后按照指定训练参数进行迭代训练,根据验证准确率的方式不断保存最优模型,利用最终模型得到高精度的多类型车辆识别方法。

    基于任务特定通道重构网络的细粒度小样本分类方法

    公开(公告)号:CN116843970A

    公开(公告)日:2023-10-03

    申请号:CN202310807415.9

    申请日:2023-07-03

    Applicant: 福州大学

    Abstract: 本发明提供一种基于任务特定通道重构网络的细粒度小样本分类方法,首先获取细粒度小样本分类数据集进行数据预处理,并完成标签提取。将数据集划分为三个部分,按照episode模式进行N‑way K‑shot小样本元任务采样,得到查询集图像和N个类别的支持集图像。然后通过多维度动态卷积构建多维度动态特征提取网络,将所有支持集图像和查询集图像输入多维度动态特征提取网络中,分别得到各个类别的支持集和查询集的特征,计算支持集各个类别的原型特征。然后利用任务特定通道注意力权值重构支持集和查询集特征。最后利用距离度量进行相似度评分得到查询集图像所属类别,高效完成细粒度小样本分类任务。

    基于计算机视觉的屏幕浏览场景分类方法

    公开(公告)号:CN113515633B

    公开(公告)日:2023-08-08

    申请号:CN202110747198.X

    申请日:2021-07-02

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明提出一种基于计算机视觉的屏幕浏览场景分类方法,包括以下步骤:步骤S1:通过自然场景训练集训练文本检测网络模型;步骤S2:采用训练好的文本检测器获得文本区域,并通过文本训练集训练识别网络;步骤S3:采用训练好的文本识别器识别文本区域,并通过新闻标题训练集训练文档分类模型。步骤S4:采用训练好文本分类器分类屏幕浏览场景类别,并采用检测和图像处理信息特征做二分类。该方法能够有效地对屏幕浏览画面进行组成上和内容上的分类。

Patent Agency Ranking