-
公开(公告)号:CN119832929A
公开(公告)日:2025-04-15
申请号:CN202510311256.2
申请日:2025-03-17
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G10L21/10 , G10L25/24 , G06V40/16 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094 , G06V10/44 , G06V10/54
Abstract: 一种基于深度感知融合的语音驱动人脸视频生成方法及装置,涉及计算机视觉与图像处理领域,方法包括:S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后,分为训练数据集和测试数据集;S2,构建人脸视频生成模型;包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型;S4,将测试数据集输入训练好的人脸视频生成模型,输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块,有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。
-
公开(公告)号:CN118552409B
公开(公告)日:2024-11-05
申请号:CN202411017310.4
申请日:2024-07-29
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G06T3/4053 , G06N3/0455 , G06N3/08 , G06T5/60
Abstract: 本发明公开了一种基于小波变换和Transformer的轻量级图像超分辨率方法及装置,涉及图像处理领域,包括:将待重建的低分辨率图像和上采样因子输入经训练的图像超分辨率模型,待重建的低分辨率图像输入第一卷积层,得到第一卷积层的输出特征并输入第一个基于小波变换的Transformer模块,经过若干个基于小波变换的Transformer模块的特征提取,将最后一个基于小波变换的Transformer模块的输出特征与第一卷积层的输出特征相加,得到第二相加结果,第二相加结果依次经过亚像素卷积层和第二卷积层,得到高分辨率重建图像,其中亚像素卷积层的尺度因子为上采样因子。本发明可解决现有Transformer方法计算复杂度过高的问题。
-
公开(公告)号:CN119762721A
公开(公告)日:2025-04-04
申请号:CN202510261796.4
申请日:2025-03-06
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G06T19/20 , G06T9/00 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于语义与几何引导的多阶段Mamba点云补全方法及装置,涉及点云处理领域,包括:构建基于语义与几何引导的多阶段Mamba点云补全模型并训练,得到经训练的多阶段Mamba点云补全模型;多排序策略Mamba解码器单元包括依次连接的若干个阶段的多排序策略Mamba解码器;获取待补全的不完整点云并输入到经训练的多阶段Mamba点云补全模型,不完整点云经过Transformer‑Mamba联合的点云局部特征编码单元,得到编码特征,编码特征输入到稀疏点云生成单元中,得到稀疏点云;稀疏点云输入到多排序策略Mamba解码器单元中,得到解码特征,解码特征经过点云上采样单元,得到预测的完整点云,克服现有Transformer编码器‑解码器结构二次方复杂度和局部细节丢失的问题。
-
公开(公告)号:CN118552409A
公开(公告)日:2024-08-27
申请号:CN202411017310.4
申请日:2024-07-29
Applicant: 华侨大学 , 信泰(福建)科技有限公司 , 福建省万物智联科技有限公司
IPC: G06T3/4053 , G06N3/0455 , G06N3/08 , G06T5/60
Abstract: 本发明公开了一种基于小波变换和Transformer的轻量级图像超分辨率方法及装置,涉及图像处理领域,包括:将待重建的低分辨率图像和上采样因子输入经训练的图像超分辨率模型,待重建的低分辨率图像输入第一卷积层,得到第一卷积层的输出特征并输入第一个基于小波变换的Transformer模块,经过若干个基于小波变换的Transformer模块的特征提取,将最后一个基于小波变换的Transformer模块的输出特征与第一卷积层的输出特征相加,得到第二相加结果,第二相加结果依次经过亚像素卷积层和第二卷积层,得到高分辨率重建图像,其中亚像素卷积层的尺度因子为上采样因子。本发明可解决现有Transformer方法计算复杂度过高的问题。
-
公开(公告)号:CN119809940A
公开(公告)日:2025-04-11
申请号:CN202510287141.4
申请日:2025-03-12
Applicant: 华侨大学 , 信泰(福建)科技有限公司
IPC: G06T3/4076 , G06N3/0464 , G06N3/048 , G06T3/4046 , G06V10/44 , G06V10/80 , G06V10/82
Abstract: 一种基于状态模型的光场图像超分辨率重建方法和装置,包括:构建浅层特征提取模块,用于对输入的待重建的光场图像的子孔径图像形式提取浅层特征;利用状态空间模型构建深层特征提取单元;基于所述深层特征提取单元构建光场空角特征重建模块,用于对所述浅层特征重建光场空角特征;基于所述深层特征提取单元构建光场结构特征重建模块,用于对所述浅层特征重建光场结构特征;构建高分辨率图像重建模块,用于将所述浅层特征、所述光场空角特征和所述光场结构特征进行层次特征融合和上采样得到重建高分辨率光场图像。本发明通过利用状态空间模型的动态特性,显著提升光场图像超分辨率方法的全局空角信息表征能力和细节重建能力。
-
公开(公告)号:CN119831829A
公开(公告)日:2025-04-15
申请号:CN202510305283.9
申请日:2025-03-14
Applicant: 华侨大学 , 泉州市展鸿自动化科技有限公司
IPC: G06T3/14 , G06N3/0455 , G06N3/0464 , G06V10/42 , G06V10/44 , G06V10/74 , G06V10/80 , G06V10/82
Abstract: 基于卷积网络与全局特征提取网络的图像配准方法和装置,包括:从产品的原始设计图中提取待打印上色的图像作为固定图像,从产品的成品图像中提取相应的待打印上色的图像作为移动图像;将所述固定图像和所述移动图像输入可变形图像配准网络以生成形变场,通过空间变换函数将所述形变场应用于所述移动图像,生成相应的变形后图像,所述变形后图像用于替换所述原始设计图作为所述产品的打印上色参考图像;通过计算所述固定图像与所述变形后图像之间的相似度来调整所述可变形图像配准网络的参数,直至二者相似度达到最大。本发明将轻量化卷积网络和Transformer的优点结合起来,通过并行处理局部和全局的特征实现精确的图像配准。
-
公开(公告)号:CN113099223A
公开(公告)日:2021-07-09
申请号:CN202110240568.0
申请日:2021-03-04
Applicant: 华侨大学
Abstract: 一种针对H.266/VVC帧内预测编码的快速模式选择方法,包括如下步骤:1)根据结构张量对当前编码CU的纹理复杂度进行判别,若为平坦区域,则进入步骤2),否则进入步骤3);2)第一轮SATD模式粗选只对DC模式、Planar模式和垂直模式进行代价计算,并跳过第二轮SATD模式粗选的扩展角度模式选择;3)根据结构张量的奇异值分解获取主方向特征向量,并依据主方向特征向量进行模式区域的选择,跳过非必要模式代价计算。本发明能够在保持H.266/VVC编码效率的前提下,有效地降低H.266/VVC帧内预测编码计算复杂度。
-
公开(公告)号:CN119232941B
公开(公告)日:2025-02-25
申请号:CN202411716269.X
申请日:2024-11-27
Applicant: 华侨大学
IPC: H04N19/172 , H04N19/70 , H04N19/85 , H04N19/134 , H04N19/42 , G06V20/40 , G06N3/0464 , G06N3/08 , G06T7/254 , G06V10/80
Abstract: 本发明公开了一种基于深度学习的双目视频压缩方法、装置及可读介质,涉及视频处理领域,包括:构建双目视频压缩模型并训练,得到经训练的双目视频压缩模型,分别获取待压缩的双目视频中的左视点的当前时刻的原始帧和前一时刻的原始帧以及右视点的当前时刻的原始帧和前一时刻的原始帧并输入到经训练的双目视频压缩模型,通过迭代的方式重构得到左视点的重建帧序列和右视点的重建帧序列,并得到压缩后的双目视频。本发明解决了现有的双目视频的视点间的冗余利用率低、压缩性能低的问题。
-
公开(公告)号:CN119232941A
公开(公告)日:2024-12-31
申请号:CN202411716269.X
申请日:2024-11-27
Applicant: 华侨大学
IPC: H04N19/172 , H04N19/70 , H04N19/85 , H04N19/134 , H04N19/42 , G06V20/40 , G06N3/0464 , G06N3/08 , G06T7/254 , G06V10/80
Abstract: 本发明公开了一种基于深度学习的双目视频压缩方法、装置及可读介质,涉及视频处理领域,包括:构建双目视频压缩模型并训练,得到经训练的双目视频压缩模型,分别获取待压缩的双目视频中的左视点的当前时刻的原始帧和前一时刻的原始帧以及右视点的当前时刻的原始帧和前一时刻的原始帧并输入到经训练的双目视频压缩模型,通过迭代的方式重构得到左视点的重建帧序列和右视点的重建帧序列,并得到压缩后的双目视频。本发明解决了现有的双目视频的视点间的冗余利用率低、压缩性能低的问题。
-
公开(公告)号:CN117274253B
公开(公告)日:2024-02-27
申请号:CN202311546437.0
申请日:2023-11-20
Applicant: 华侨大学
IPC: G06T7/00 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V10/80
Abstract: 本发明公开了一种基于多模态Transformer的零配件检测方法、装置及可读介质,涉及图像处理领域,包括:获取零配件的重量以及不同角度零配件图像叠加得到输入图像;构建零配件检测模型并训练,得到经训练的零配件检测模型,将输入图像和重量输入经训练的零配件检测模型,得到特征向量;建立包含已知型号的零配件的特征向量的零配件特征向量数据库;将待检测的零配件的输入图像和重量输入经训练的零配件检测模型,得到待检测的零配件的特征向量,将待检测的零配件的特征向量与零配件特征向量数据库中的特征向量进行比对,检测得到待检测的零配件的型号,解决传统的图像检测方法使用单一类型的数据对零配件型号检测的准确性差等问题。
-
-
-
-
-
-
-
-
-