基于扩散模型的虚拟模特服装展示图像智能生成方法及装置

    公开(公告)号:CN119131212B

    公开(公告)日:2025-04-04

    申请号:CN202411568331.5

    申请日:2024-11-05

    Abstract: 本发明公开了一种基于扩散模型的虚拟模特服装展示图像智能生成方法及装置。使用数据集中的原有数据与服装分割模型处理得到目标服装图像和姿态图像,并训练得到服装、姿态的重建变分自编码器以及自适应姿态生成模型M1;对数据集内的原有数据进行空间拼接构建得到组合数据;用组合数据进行条件扩散模型的微调训练,从特征融合、引导生成进行服装增强,得到服装增强的展示图像生成模型M2;输入素体人台模特或任意人物身穿目标服装的图像,通过M1和M2得到初步的服装展示图像,使用人脸修复模型优化得到最终服装展示图像。本发明从训练模式、服装特征保留及生成结果方面实现创新,能够实现操作便捷和高质量的虚拟模特服装展示图像生成。

    一种基于图像模糊度的实时物体静止检测方法及系统

    公开(公告)号:CN119323590B

    公开(公告)日:2025-04-01

    申请号:CN202411875786.1

    申请日:2024-12-19

    Abstract: 本发明公开了一种基于图像模糊度的实时物体静止检测方法及系统,包括对视频流中的当前帧彩色图像转换为灰度图像和定长的灰度图像序列实时更新;灰度图像模糊度计算和模糊度序列实时更新;使用增量更新法实时更新平均图像并计算平均图像的模糊度;将平均图像的模糊度与模糊度序列中最大模糊度的比值作为相对静止系数,并与设定阈值比较,判断场景的运动状态。本发明通过融合连续多帧信息得到相对静止系数,可以实时、准确地,且稳定性良好,能有效抵抗噪声、光照变化的干扰。

    基于多层级信息时空融合的三维人体姿态估计方法及装置

    公开(公告)号:CN119091513B

    公开(公告)日:2025-03-25

    申请号:CN202411569851.8

    申请日:2024-11-06

    Abstract: 本发明公开了一种基于多层级信息时空融合的三维人体姿态估计方法及装置,包括:取得一段时序的二维人体姿态序列;将其输入嵌入层对每一个二维关键点进行处理,对处理得到的Token添加空间位置编码,进行关节级别的空间信息的融合;再复制三份,分别添加关节、部位、姿态级别的时间位置编码,然后分别进行对应级别的时间信息融合;融合时间信息后通过对应级别的全连接层,分别回归得到姿态的旋转角度、各部位的无方向位置中心、各关节相对于所属部位的相对位置;进一步计算出人体每一个关节的三维坐标数据。本发明通过多层级的利用关节、部位、姿态三个级别的运动信息,对时间、空间两个维度进行信息融合,提升了三维人体姿态估计的准确性。

    一种基于图像模糊度的实时物体静止检测方法及系统

    公开(公告)号:CN119323590A

    公开(公告)日:2025-01-17

    申请号:CN202411875786.1

    申请日:2024-12-19

    Abstract: 本发明公开了一种基于图像模糊度的实时物体静止检测方法及系统,包括对视频流中的当前帧彩色图像转换为灰度图像和定长的灰度图像序列实时更新;灰度图像模糊度计算和模糊度序列实时更新;使用增量更新法实时更新平均图像并计算平均图像的模糊度;将平均图像的模糊度与模糊度序列中最大模糊度的比值作为相对静止系数,并与设定阈值比较,判断场景的运动状态。本发明通过融合连续多帧信息得到相对静止系数,可以实时、准确地,且稳定性良好,能有效抵抗噪声、光照变化的干扰。

    基于超椭球的人脸识别方法、装置及存储介质

    公开(公告)号:CN114677736B

    公开(公告)日:2024-12-27

    申请号:CN202210305283.5

    申请日:2022-03-25

    Inventor: 古华茂 王勋

    Abstract: 本发明公开了一种基于超椭球的人脸识别方法、装置及存储介质,首先,根据已知类别的人脸图像样本进行建模,生成对待识别人脸图像样本进行类别判断的超椭球分类器;然后,将待识别人脸图像样本输入训练好的超椭球分类器,判断待识别人脸图像样本的所属类别。具体地说,本发明将同类别的人脸图像在直角坐标系上所占据的区域建模成超椭球。为了提高建模的精度,本发明先把同一类别的人脸图像数据通过K‑means聚类算法细分成若干组,再由每个组独立地生成一个超椭球,以若干个超椭球来表征该类别的数据区域。与现有的人脸识别算法相比,本发明内在地支持增量学习,并且所需样本量少,性能稳定,能适合更广泛的应用场景。

    一种基于加速Transformer模型的视频分类方法

    公开(公告)号:CN114048818B

    公开(公告)日:2024-12-17

    申请号:CN202111358049.0

    申请日:2021-11-16

    Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

    基于多层级信息时空融合的三维人体姿态估计方法及装置

    公开(公告)号:CN119091513A

    公开(公告)日:2024-12-06

    申请号:CN202411569851.8

    申请日:2024-11-06

    Abstract: 本发明公开了一种基于多层级信息时空融合的三维人体姿态估计方法及装置,包括:取得一段时序的二维人体姿态序列;将其输入嵌入层对每一个二维关键点进行处理,对处理得到的Token添加空间位置编码,进行关节级别的空间信息的融合;再复制三份,分别添加关节、部位、姿态级别的时间位置编码,然后分别进行对应级别的时间信息融合;融合时间信息后通过对应级别的全连接层,分别回归得到姿态的旋转角度、各部位的无方向位置中心、各关节相对于所属部位的相对位置;进一步计算出人体每一个关节的三维坐标数据。本发明通过多层级的利用关节、部位、姿态三个级别的运动信息,对时间、空间两个维度进行信息融合,提升了三维人体姿态估计的准确性。

    基于两种级别的可适应参数生成跨语言跨模态检索方法

    公开(公告)号:CN118939859A

    公开(公告)日:2024-11-12

    申请号:CN202410927779.5

    申请日:2024-07-11

    Abstract: 本发明公开了一种基于两种级别的可适应参数生成跨语言跨模态检索方法,该方法分为两个阶段,第一个阶段旨在源语言和目标语言之间的对齐实现跨语言的迁移,第二阶段旨在目标语言和图像之间的对齐,实现跨模态的对齐。在第一阶段中,对文本编码器层参数进行了冻结,并在目标语言分支的每一层的文本编码器层的后面添加了共享适配器模块、句子级别适配器模块和token级别适配器模块,然后分别经过这三个模块之后按照权重相加,得到这一层的输出。本发明使用新颖的自适应参数生成适配器结构,利用两种级别文本信息和共享文本信息进行跨语言跨模态检索。

Patent Agency Ranking