-
公开(公告)号:CN119131212B
公开(公告)日:2025-04-04
申请号:CN202411568331.5
申请日:2024-11-05
Applicant: 浙江工商大学
IPC: G06T13/40 , G06T5/50 , G06T5/60 , G06T3/4038 , G06T7/11 , G06T5/70 , G06N3/0464 , G06N3/0455 , G06N3/0985 , G06V40/16
Abstract: 本发明公开了一种基于扩散模型的虚拟模特服装展示图像智能生成方法及装置。使用数据集中的原有数据与服装分割模型处理得到目标服装图像和姿态图像,并训练得到服装、姿态的重建变分自编码器以及自适应姿态生成模型M1;对数据集内的原有数据进行空间拼接构建得到组合数据;用组合数据进行条件扩散模型的微调训练,从特征融合、引导生成进行服装增强,得到服装增强的展示图像生成模型M2;输入素体人台模特或任意人物身穿目标服装的图像,通过M1和M2得到初步的服装展示图像,使用人脸修复模型优化得到最终服装展示图像。本发明从训练模式、服装特征保留及生成结果方面实现创新,能够实现操作便捷和高质量的虚拟模特服装展示图像生成。
-
公开(公告)号:CN119323590B
公开(公告)日:2025-04-01
申请号:CN202411875786.1
申请日:2024-12-19
Applicant: 浙江工商大学
Abstract: 本发明公开了一种基于图像模糊度的实时物体静止检测方法及系统,包括对视频流中的当前帧彩色图像转换为灰度图像和定长的灰度图像序列实时更新;灰度图像模糊度计算和模糊度序列实时更新;使用增量更新法实时更新平均图像并计算平均图像的模糊度;将平均图像的模糊度与模糊度序列中最大模糊度的比值作为相对静止系数,并与设定阈值比较,判断场景的运动状态。本发明通过融合连续多帧信息得到相对静止系数,可以实时、准确地,且稳定性良好,能有效抵抗噪声、光照变化的干扰。
-
公开(公告)号:CN119091513B
公开(公告)日:2025-03-25
申请号:CN202411569851.8
申请日:2024-11-06
Applicant: 浙江工商大学 , 杭州小伴熊科技有限公司
Abstract: 本发明公开了一种基于多层级信息时空融合的三维人体姿态估计方法及装置,包括:取得一段时序的二维人体姿态序列;将其输入嵌入层对每一个二维关键点进行处理,对处理得到的Token添加空间位置编码,进行关节级别的空间信息的融合;再复制三份,分别添加关节、部位、姿态级别的时间位置编码,然后分别进行对应级别的时间信息融合;融合时间信息后通过对应级别的全连接层,分别回归得到姿态的旋转角度、各部位的无方向位置中心、各关节相对于所属部位的相对位置;进一步计算出人体每一个关节的三维坐标数据。本发明通过多层级的利用关节、部位、姿态三个级别的运动信息,对时间、空间两个维度进行信息融合,提升了三维人体姿态估计的准确性。
-
公开(公告)号:CN119323590A
公开(公告)日:2025-01-17
申请号:CN202411875786.1
申请日:2024-12-19
Applicant: 浙江工商大学
Abstract: 本发明公开了一种基于图像模糊度的实时物体静止检测方法及系统,包括对视频流中的当前帧彩色图像转换为灰度图像和定长的灰度图像序列实时更新;灰度图像模糊度计算和模糊度序列实时更新;使用增量更新法实时更新平均图像并计算平均图像的模糊度;将平均图像的模糊度与模糊度序列中最大模糊度的比值作为相对静止系数,并与设定阈值比较,判断场景的运动状态。本发明通过融合连续多帧信息得到相对静止系数,可以实时、准确地,且稳定性良好,能有效抵抗噪声、光照变化的干扰。
-
公开(公告)号:CN119322859A
公开(公告)日:2025-01-17
申请号:CN202411874910.2
申请日:2024-12-19
Applicant: 浙江工商大学
IPC: G06F16/432 , G06F16/483 , G06F40/284 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0464 , G06N3/094 , G06N3/096
Abstract: 本发明公开了一种基于语义解耦和动态参数生成的跨语言跨模态检索方法,该方法引入语义解耦模块和动态适配器模块,语义解耦模块将一个句子解耦成语义相关特征和语义无关特征,根据这两个信息,能让模型对处理同个语义但是有不同表述方式的句子也能有较好的表现。动态适配器模块将语义解耦模块的输出通过低秩分解的方式融合到适配器中,将语义相关信息和语义无关信息进行融合,来提高跨语言跨模态检索能力。
-
公开(公告)号:CN119314230A
公开(公告)日:2025-01-14
申请号:CN202411857631.5
申请日:2024-12-17
Applicant: 浙江工商大学
IPC: G06V40/20 , G06V40/10 , G06V20/40 , G06V10/774 , G06V10/34 , G06V10/44 , G06V10/77 , G06N3/045 , G06N3/088 , G06N3/0895 , G06N3/0985
Abstract: 本发明公开了一种多模态大模型辅助下噪声鲁棒的人体骨架无监督表示学习方法及装置,其方法包括:通过对与人体骨架序列对应的RGB视频进行采样得到关键帧,经多模态大模型生成动作文本描述;后将人体骨架序列与对应动作文本描述进行编码到公共空间,通过异常样本与信息熵联合估计的样本噪音评估方法生成更可靠的学习目标,使用噪音感知的对比学习方法对模型进行训练;最后,在经过一定批次的迭代训练后可得到性能更优的编码器。本发明在没有额外训练推理成本的前提下,利用编码器本身的能力来区分与动作无关的文本描述,使得模型学习到更加合理的相似性表示,同时较好地提高了编码器在下游任务的性能。
-
公开(公告)号:CN114677736B
公开(公告)日:2024-12-27
申请号:CN202210305283.5
申请日:2022-03-25
Applicant: 浙江工商大学
IPC: G06V40/16 , G06V10/774 , G06V10/762
Abstract: 本发明公开了一种基于超椭球的人脸识别方法、装置及存储介质,首先,根据已知类别的人脸图像样本进行建模,生成对待识别人脸图像样本进行类别判断的超椭球分类器;然后,将待识别人脸图像样本输入训练好的超椭球分类器,判断待识别人脸图像样本的所属类别。具体地说,本发明将同类别的人脸图像在直角坐标系上所占据的区域建模成超椭球。为了提高建模的精度,本发明先把同一类别的人脸图像数据通过K‑means聚类算法细分成若干组,再由每个组独立地生成一个超椭球,以若干个超椭球来表征该类别的数据区域。与现有的人脸识别算法相比,本发明内在地支持增量学习,并且所需样本量少,性能稳定,能适合更广泛的应用场景。
-
公开(公告)号:CN114048818B
公开(公告)日:2024-12-17
申请号:CN202111358049.0
申请日:2021-11-16
Applicant: 浙江工商大学
IPC: G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。
-
公开(公告)号:CN119091513A
公开(公告)日:2024-12-06
申请号:CN202411569851.8
申请日:2024-11-06
Applicant: 浙江工商大学 , 杭州小伴熊科技有限公司
Abstract: 本发明公开了一种基于多层级信息时空融合的三维人体姿态估计方法及装置,包括:取得一段时序的二维人体姿态序列;将其输入嵌入层对每一个二维关键点进行处理,对处理得到的Token添加空间位置编码,进行关节级别的空间信息的融合;再复制三份,分别添加关节、部位、姿态级别的时间位置编码,然后分别进行对应级别的时间信息融合;融合时间信息后通过对应级别的全连接层,分别回归得到姿态的旋转角度、各部位的无方向位置中心、各关节相对于所属部位的相对位置;进一步计算出人体每一个关节的三维坐标数据。本发明通过多层级的利用关节、部位、姿态三个级别的运动信息,对时间、空间两个维度进行信息融合,提升了三维人体姿态估计的准确性。
-
公开(公告)号:CN118939859A
公开(公告)日:2024-11-12
申请号:CN202410927779.5
申请日:2024-07-11
Applicant: 浙江工商大学
IPC: G06F16/9532 , G06F16/332 , G06F16/33 , G06F16/532 , G06F40/16 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种基于两种级别的可适应参数生成跨语言跨模态检索方法,该方法分为两个阶段,第一个阶段旨在源语言和目标语言之间的对齐实现跨语言的迁移,第二阶段旨在目标语言和图像之间的对齐,实现跨模态的对齐。在第一阶段中,对文本编码器层参数进行了冻结,并在目标语言分支的每一层的文本编码器层的后面添加了共享适配器模块、句子级别适配器模块和token级别适配器模块,然后分别经过这三个模块之后按照权重相加,得到这一层的输出。本发明使用新颖的自适应参数生成适配器结构,利用两种级别文本信息和共享文本信息进行跨语言跨模态检索。
-
-
-
-
-
-
-
-
-