-
公开(公告)号:CN119863744A
公开(公告)日:2025-04-22
申请号:CN202510346077.2
申请日:2025-03-24
Applicant: 华侨大学
Abstract: 本发明一种基于六自由度信息引导的沉浸式视频质量评价方法及装置,涉及计算机视觉领域,方法包括:构建基于六自由度信息引导的沉浸式视频质量评价模型并训练,得到经训练的评价模型;从沉浸式视频提取纹理视频块、纹理关键帧和深度关键帧;将纹理视频块、纹理关键帧和深度关键帧输入经训练的评价模型,通过视觉信息编码模块提取到对应的视觉特征;将视觉特征输入时空映射模块得到时间视觉标记和空间视觉标记;通过语言编码器对指令信息和六自由度视点位置信息进行编码,得到文本指令标记和视点位置标记;将各标记进行组合得到组合标记,将组合标记输入语音解码器中,得到沉浸式视频质量分数。本发明能够准确客观评估沉浸式视频的质量。
-
公开(公告)号:CN119848794A
公开(公告)日:2025-04-18
申请号:CN202510340474.9
申请日:2025-03-21
Applicant: 华侨大学
IPC: G06F18/25 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/0499 , G06N3/082 , G06F18/213 , G06F18/2413 , G06F18/2415
Abstract: 本发明公开了一种基于分层交互对齐网络的多模态情感识别方法及装置,涉及数据处理领域,包括:构建多模态情感识别模型并利用层次表示分布对齐层对齐进行训练,得到经训练的多模态情感识别模型;获取目标域人群中的其中一个待识别人员的脑电数据与眼动数据对并输入到经训练的多模态情感识别模型,依次经过特征提取模块和分层自适应交互注意力模块,得到待识别人员对应的最终跨模态特征,待识别人员对应的最终跨模态特征和目标域数据对应的最终跨模态特征输入到少样本学习模块,得到待识别人员属于每个情感类别的概率值,选择概率值最大所对应的情感类别作为待识别人员的预测情感类别。本发明解决多模态情感识别中个体差异大、样本数量有限的问题。
-
公开(公告)号:CN119832929A
公开(公告)日:2025-04-15
申请号:CN202510311256.2
申请日:2025-03-17
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G10L21/10 , G10L25/24 , G06V40/16 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094 , G06V10/44 , G06V10/54
Abstract: 一种基于深度感知融合的语音驱动人脸视频生成方法及装置,涉及计算机视觉与图像处理领域,方法包括:S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后,分为训练数据集和测试数据集;S2,构建人脸视频生成模型;包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型;S4,将测试数据集输入训练好的人脸视频生成模型,输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块,有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。
-
公开(公告)号:CN119513631A
公开(公告)日:2025-02-25
申请号:CN202510072725.X
申请日:2025-01-17
Applicant: 华侨大学 , 厦门盈趣科技股份有限公司
IPC: G06F18/23 , G16B40/00 , G06N3/0455 , G06F18/23213
Abstract: 肺炎病毒基因数据多视图聚类集成方法、装置和电子设备,包括:构造具有宽度学习网络和全局子空间结构的宽度自编码器;对宽度自编码器进行训练,确定宽度自编码器的模型参数,将多视图的肺炎基因数据输入训练后的宽度自编码器后输出压缩特征子空间;将压缩特征子空间聚类得到多个基本分区作为集成池的集成成员;将基本分区变换为模糊划分矩阵,基于集成池构造无向二分图,无向二分图的节点之间的连接权对应于模糊划分矩阵中的值;将无向二分图切割成几个不相交的子图,根据每个子图的样本节点得到多视图的肺炎基因数据的聚类集成结果。本发明显著减少参数量和计算资源,高效完成肺炎基因数据的多视图聚类分析。
-
公开(公告)号:CN119228788B
公开(公告)日:2025-02-18
申请号:CN202411725027.7
申请日:2024-11-28
Applicant: 华侨大学
IPC: G06T7/00 , G06N3/0455 , G06N3/08 , G06V10/26 , G06V10/40 , G06V10/764 , G06V10/82 , G01R31/12 , G01N21/88
Abstract: 本发明公开了一种基于类别余弦映射的绝缘子故障检测方法及装置,涉及人工智能、机器视觉领域,包括:从真实数据集合与合成数据集合中获取图像数据、故障标签以及类别标签;利用类别余弦偏置编码将类别偏置编码进图像数据,利用特征提取网络提取编码结果中的空间特征;利用类别余弦偏置解码缓解空间特征中的偏置信息以获得类别特征,利用多标签分类器获取类别特征与类别标签的分类损失;利用分割解码器获取空间特征与故障标签的掩码损失;基于分类损失与掩码损失完成模型训练。本发明将正常、故障绝缘子以及合成图像的类别差异通过余弦偏置编码至图像数据中,引导模型理解合成图像与真实场景中的分布差异,最终提升合成数据在实践中的有效性。
-
公开(公告)号:CN119229130B
公开(公告)日:2025-02-14
申请号:CN202411736952.X
申请日:2024-11-29
Applicant: 华侨大学
IPC: G06V10/26 , G06N3/0464 , G06V10/44 , G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于分类激活映射自举的路面裂痕分割方法及装置,涉及人工智能、机器视觉领域,方法包括:训练基于深度网络的正常与裂痕路面分类模型;利用类激活映射方法生成路面图像的激活映射图,通过高激活阈值筛选出类别高激活掩码并进行增强操作后,加入路面图像训练集;重复上述步骤,直到达到设定条件;基于训练好的正常与裂痕路面分类模型生成待推理的路面图像的激活映射图,通过裂痕掩码阈值获得待推理的路面图像的裂痕掩码,作为裂痕分割结果。本发明利用分类模型与激活映射,寻找类别高激活掩码更新路面图像训练集,不断迭代优化掩码效果,以改善路面裂痕分割效果,无需对裂痕进行像素级的标注,大大降低了标注成本。
-
公开(公告)号:CN119180752A
公开(公告)日:2024-12-24
申请号:CN202411678685.5
申请日:2024-11-22
Applicant: 华侨大学 , 厦门松霖科技股份有限公司
IPC: G06T3/4053 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06T3/4046
Abstract: 本发明公开了一种基于高效频域Transformer的轻量级图像超分辨率方法及装置,涉及图像处理领域,包括:构建基于高效频域Transformer的图像超分辨率模型并训练,得到经训练的图像超分辨率模型,图像超分辨率模型包括第一卷积层、亚像素卷积层、第二卷积层以及若干个高效频域Transformer模块;获取待重建的低分配率图像和上采样因子并输入经训练的图像超分辨率模型,先经过第一卷积层,得到第一卷积层的输出特征,第一卷积层的输出特征依次经过若干个高效频域Transformer模块,将最后一个高效频域Transformer模块的输出特征与第一卷积层的输出特征相加,得到第二相加结果,第二相加结果依次经过亚像素卷积层和第二卷积层,得到高分辨率重建图像。本发明克服现有Transformer方法计算复杂度过高的问题。
-
公开(公告)号:CN118552409B
公开(公告)日:2024-11-05
申请号:CN202411017310.4
申请日:2024-07-29
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G06T3/4053 , G06N3/0455 , G06N3/08 , G06T5/60
Abstract: 本发明公开了一种基于小波变换和Transformer的轻量级图像超分辨率方法及装置,涉及图像处理领域,包括:将待重建的低分辨率图像和上采样因子输入经训练的图像超分辨率模型,待重建的低分辨率图像输入第一卷积层,得到第一卷积层的输出特征并输入第一个基于小波变换的Transformer模块,经过若干个基于小波变换的Transformer模块的特征提取,将最后一个基于小波变换的Transformer模块的输出特征与第一卷积层的输出特征相加,得到第二相加结果,第二相加结果依次经过亚像素卷积层和第二卷积层,得到高分辨率重建图像,其中亚像素卷积层的尺度因子为上采样因子。本发明可解决现有Transformer方法计算复杂度过高的问题。
-
公开(公告)号:CN118865075A
公开(公告)日:2024-10-29
申请号:CN202411319739.9
申请日:2024-09-23
Applicant: 华侨大学
IPC: G06V10/98 , G06N3/043 , G06N3/0464 , G06V10/776 , G06V10/82
Abstract: 本发明公开了一种基于分层时空感知的屏幕内容视频质量评价方法及装置,涉及视频评价领域,包括:提取屏幕内容视频中的若干个碎片化视频和若干个关键帧并输入经训练的屏幕内容视频质量评价模型,每个关键帧输入显著性计算模块筛选出若干个显著视频块,每个显著视频块输入双通道卷积神经网络,得到每个阶段的多层特征并输入块级质量评估模块,经过空间门特征增强模块,得到每个阶段的增强特征并输入块级质量聚合模块,得到每个视频块的块级质量分数;采用自适应加权策略计算得到空域感知质量分数;碎片化视频输入时域感知质量评估支路,得到时域感知质量分数,两者结合计算得到屏幕内容视频的质量分数,解决现有视频质量评价方法可靠性差的问题。
-
公开(公告)号:CN118397659B
公开(公告)日:2024-10-15
申请号:CN202410828405.8
申请日:2024-06-25
Applicant: 华侨大学
Abstract: 本发明公开了一种基于全局特征与头肩特征多核融合的行人识别方法及装置,涉及图像识别领域,包括:采用经训练的行人头肩部检测模型对行人图像进行头肩部检测,得到行人头肩部图像;在行人识别模型中,将行人图像和行人头肩部图像分别输入全局特征提取分支和头肩特征提取分支,得到全局特征向量和头肩特征向量并输入多核融合模块进行融合,得到融合特征向量,根据全局特征向量、头肩特征向量和融合特征向量构建损失函数,以训练行人识别模型,得到经训练的行人识别模型;将待识别的行人图像及其对应的行人头肩部图像输入经训练的行人识别模型,得到对应的融合特征向量,再进行行人识别。本发明解决鱼眼摄像机下图像特征差异大、准确度低的问题。
-
-
-
-
-
-
-
-
-