-
公开(公告)号:CN117788544A
公开(公告)日:2024-03-29
申请号:CN202311823473.7
申请日:2023-12-27
Applicant: 福州大学
IPC: G06T7/55 , G06T7/73 , G06N3/0464 , G06N3/048
Abstract: 本发明提供一种基于轻量级注意力机制的图像深度估计方法,首先,获取图像数据集,输入深度编码器。深度编码器包括三层结构,每层由卷积模块和注意力模块组成。深度解码器也有三层结构。每层结构先进行特征图上采样,然后通过跳跃连接将特征图拼接起来,使用预测头输出逆深度图。姿态估计网络使用了ResNet18的轻量级结构,接收级联图像作为输入,使用四个卷积层的姿态解码器来估计相邻图像之间的相对位姿。然后将逆深度图转换为深度图,并结合位姿信息计算相机变换矩阵。通过反投影函数将深度图转换为相机坐标系下的三维点,再使用投影函数将三维点转换为像素坐标。最后利用双线性插值的方法,得到重投影的彩色图像。
-
公开(公告)号:CN117218709A
公开(公告)日:2023-12-12
申请号:CN202311388239.6
申请日:2023-10-25
Applicant: 福州大学
IPC: G06V40/16 , G06V40/20 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/774 , G06V10/762 , G06N3/0499 , G06N3/0464 , A61B5/16
Abstract: 本发明涉及一种基于时间可变形注意力机制的居家老人实时状态监测方法。首先,基于改进yolov7提取视频人体2D姿态图,沿时间维度堆叠成3D热图体,并使用主题中心裁剪,均匀采样等多种方式进行数据预处理。接着,利用时间可变形注意力机制模块与前馈神经网络,使用网络隐帧赋权,结合3D卷积,构建动作识别模型。然后,基于Harr级联分类器提取人脸位置,结合特征聚类网络,多头注意网络、注意融合网络构建表情识别模型。最后,通过不断迭代,优化组合损失更新动作识别模型和表情识别模型参数,并利用动作识别模型构建多级动作判别预警系统,结合表情识别模型构建实时情绪打分系统。
-
公开(公告)号:CN116910287A
公开(公告)日:2023-10-20
申请号:CN202310867102.2
申请日:2023-07-14
Applicant: 福州大学
IPC: G06F16/532 , G06F16/58 , G06F18/25 , G06F18/22 , G06F40/289 , G06F18/213 , G06N3/0464 , G06N3/08
Abstract: 本发明提出令牌压缩与双向非对称匹配的多模态查询图像检索方法,包括以下步骤;步骤S1:将输入图像分块并分别编码,将输入文本利用词嵌入转化为令牌序列;对序列化的数据进行令牌压缩与编码;步骤S2:对得到的融合上下文的图像模态和文本模态令牌序列加上额外的融合令牌,并再次进行令牌压缩与编码;步骤S3:对使用步骤S2得到的单模态与融合模态特征表示进行正向的精确匹配与反向的模糊匹配,利用匹配结果指导神经网络学习过程。步骤S4:进行神经网络的训练,保留最好的模型权重用于计算测试集数据的特征表示,实现组合查询图像检索;本发明能够对多模态查询语义进行充分融合,充分利用多模态数据的相关性和互补性实现更全面更精细的图像检索。
-
公开(公告)号:CN116883748A
公开(公告)日:2023-10-13
申请号:CN202310867063.6
申请日:2023-07-14
Applicant: 福州大学
IPC: G06V10/764 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明提出一种基于多粒度交互与特征重组网络的细粒度分类方法,包括以下步骤:步骤S1:通过基于Swin‑Transformer的骨干网络提取细粒度全局图像的特征,然后通过自注意力权值引导局部图像定位,并以权重共享的形式提取局部特征;步骤S2:通过嵌入多粒度特征增强模块来增强粒度感知特征,同时结合跨注意力特征交互来进一步丰富区域级特征描述;步骤S3:利用动态的类级中心表示指导高差异通道重组交换,以保留潜在的类别不变特征,并探索多样化的特征模式组合;步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新模型参数,根据验证准确率不断保存最优模型,利用最终模型得到的组合预测结果;本发明能在计算机视觉应用中准确有效地进行细粒度分类。
-
公开(公告)号:CN116881416A
公开(公告)日:2023-10-13
申请号:CN202310867080.X
申请日:2023-07-14
Applicant: 福州大学
IPC: G06F16/332 , G06F16/33 , G06F16/38 , G06F16/532 , G06F16/58 , G06F18/213 , G06F18/22 , G06F18/214 , G06N3/0464 , G06N3/08 , G06N5/04
Abstract: 本发明提出关系推理与跨模态独立匹配网络的实例级跨模态检索方法,首先利用模态特征提取器将输入的原始图片转化为区域特征,将输入的文本转化为词序列。然后分别对图像和文本模态进行模态特征关系推理,以挖掘局部特征之间的相互作用关系。接着采用基于图网络的图池化方法对重排特征进行模态全局语义聚合。最后计算多模态特征之间的相似性,按照相似性返回跨模态检索结果。在神经网络训练过程中利用引力损失函数对模态内与模态间匹配关系的学习过程进行指导与修正;本发明能够有效地对多模态数据进行局部关系推理与全局语义聚合,高效准确地完成多模态场景下细粒度的实例级跨模态检索任务。
-
公开(公告)号:CN116844146A
公开(公告)日:2023-10-03
申请号:CN202310805134.X
申请日:2023-07-03
Applicant: 福州大学
IPC: G06V20/62 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明针对模型训练速度慢和现有方法检测极端长宽比文本实例效果差等问题,提出了一种基于词聚焦骨干网络和样本权重独立分配的场景文本检测方法,将文本实例的空间信息融入早期的模型训练中,加快模型收敛速度,并利用通道注意力和空间注意力机制帮助模型关注包含语义信息的像素点,最后利用独立分配权重的标签分配策略帮助模型学习难样本,以提升模型的鲁棒性。
-
公开(公告)号:CN115908287A
公开(公告)日:2023-04-04
申请号:CN202211382707.4
申请日:2022-11-01
Applicant: 福州大学
IPC: G06T7/00 , G06V10/26 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 本发明提出一种基于语义分割与视频理解的心脏彩超辅助判断装置,基于计算机系统,包括:心脏彩超视频语义分割模块,用于使用以BEIT为基准的编码解码器对心脏彩超视频进行语义分割,得到二值化心脏轮廓视频;心脏静态指标获取模块,用于使用以RAFT为基准的神经网络模型对所述心脏彩超视频语义分割模块得到的心脏轮廓视频进行分析,从最大轮廓帧和最小轮廓帧,得到心脏静态指标;心脏动态指标获取模块,用于使用以R(2+1)D为基准的视频理解算法对所述心脏彩超视频语义分割模块得到的心脏彩超视频进行分析,得到心脏动态指标;评估模块,用于使用评估函数针对心脏静态指标和心脏动态指标进行评估,使用线性回归算法计算与心脏病类型的关系。
-
公开(公告)号:CN115761621A
公开(公告)日:2023-03-07
申请号:CN202211380112.5
申请日:2022-11-05
Applicant: 福州大学
IPC: G06V20/52 , G06V10/26 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提出基于强化学习与残差分类网络进行人群计数的方法,包括以下步骤:步骤S1:采用预设的函数将人的数量定义为多个类别,所述类别与人员数量范围具有对应关系;步骤S2:拍摄密集人群场景,将原始图像输入至残差分类卷积神经网络之中,训练网络,直至网络权重稳定,获取该图像所属的特征图和分块分类结果,即类别图;步骤S3:将图像的特征图与类别图输入至强化学习评估网络之中,根据图像特征对类别图做出精确调整,获取更细粒度的类别图;步骤S4:将图像的类别图映射回人数,获取原图像的计数图,计数图进行值累加获取原摄影机所监测场景图像的预测人数;本发明能够更为精准地对人群中人的数量进行分类,根据分类结果得到人群的具体人数。
-
公开(公告)号:CN112598764B
公开(公告)日:2023-02-21
申请号:CN202011569475.4
申请日:2020-12-26
Applicant: 福州大学
IPC: G06T11/20 , G06F40/186 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明提出一种迁移场景风格的字符图像生成方法,可用于生成含给定场景风格的汉字字符图像,所述方法包括以下步骤:步骤S1:采集场景字符图像,制作原始字符图像,构建训练数据集;步骤S2:构建用于场景字符图像生成的生成对抗网络,并训练网络;步骤S3:使用源场景字符图像、源原始字符图像和目标原始字符图像,生成场景字符图像;本发明可提供一种通过给定含有场景风格和字体风格的场景字符图像,并通过字体文件制作简单的黑底白字的字符图像,生成指定字符含有给定场景风格的场景字符图像。
-
公开(公告)号:CN115620116A
公开(公告)日:2023-01-17
申请号:CN202211373056.2
申请日:2022-11-03
Applicant: 福州大学
Abstract: 本发明提出基于语义变化的视频质量评估方法,包括以下步骤;步骤S1:对于移动设备拍摄的不同场景的视频,对视频的每一个帧提取边缘特征;步骤S2:将视频每一帧的边缘与原始图像分别输入空间特征提取网络,获取视频的多尺度空间特征,同时将视频输入时间特征提取网络,获取多尺度时间特征,对多尺度特征进行多频率分量池化和标准池化;步骤S3:将池化后的结果合并,获得视频的时空特征,并将时空特征降维;步骤S4:将降维后的视频时空特征输入质量预测网络建模时序关系,进而预测出整体视频的质量分数;本发明能够有效地提取视频的时空特征并加入语义变化信息,使得质量评价模型获取的视频失真信息更加全面。
-
-
-
-
-
-
-
-
-