Patent search ap:("浙江工商大学") AND inv:"李锦" Page 1

1.

发明公开
一种基于多帧唇部参考和唇部光流模块的说话人脸生成方法、系统、设备及介质审中-实审

公开(公告)号：CN119068526A

公开(公告)日：2024-12-03

申请号：CN202411134657.7

申请日：2024-08-19

Applicant: 浙江工商大学

Inventor： 杨柏林 , 吴加捷 , 李锦

IPC: G06V40/16 , G06V10/24 , G06V10/774 , G06V10/75

Abstract: 本发明公开了一种基于多帧唇部参考和唇部光流模块的说话人脸生成方法、系统、设备及介质。本发明设计了一个基于唇部光流模块的对齐模型，以提供更为精确的对齐参考图像，提升生成唇部结果的精确度。同时，本发明设计了一个基于多帧参考唇部模块和音频感知交叉注意力模块的渲染模型，以生成更为逼真的人物特征与唇部细节。最后，本发明通过结合对齐模型与渲染模型，显著提升了生成人物的唇部质量，为生成高质量说话人脸图像提供了一种有效而稳定的解决方案。

2.

发明授权
基于多模态双向循环场景流的动态点云压缩方法、系统、存储介质及设备有权

公开(公告)号：CN118381927B

公开(公告)日：2024-08-23

申请号：CN202410819902.1

申请日：2024-06-24

Applicant: 杭州宇泛智能科技股份有限公司 , 浙江工商大学 , 浙江中南卡通股份有限公司

Inventor： 杨柏林 , 郑东 , 南方哲 , 沈玉良 , 李锦

IPC: H04N19/172 , H04N19/597 , H04N19/51

Abstract: 本发明公开了一种基于多模态双向循环场景流的动态点云压缩方法、系统、存储介质及设备。本发明首先给定连续两帧的点云数据和对应的图片数据，分别提取特征；将图像特征张量与点云特征张量相加，获得融合特征向量；依据特征向量和坐标矩阵得到连续两帧的潜在表示；随后将连续两帧的潜在表示输入至多尺度特征提取模块，获得运动向量。对该运动向量以及前一帧的潜在表示进行运动补偿和压缩。然后基于上下文进行残差压缩，重构残差张量；最后将预测帧和残差张量相加后输入至点云重建模块得到当前帧。本发明利用跨模态信息，实现了不同模态之间的信息互补；从粗到精的方式迭代双向增强特征和场景流估计，在保持高效率的同时显著提高性能。

3.

发明公开
基于多模态双向循环场景流的动态点云压缩方法、系统、存储介质及设备有权

公开(公告)号：CN118381927A

公开(公告)日：2024-07-23

申请号：CN202410819902.1

申请日：2024-06-24

Applicant: 杭州宇泛智能科技股份有限公司 , 浙江工商大学 , 浙江中南卡通股份有限公司

Inventor： 杨柏林 , 郑东 , 南方哲 , 沈玉良 , 李锦

IPC: H04N19/172 , H04N19/597 , H04N19/51

Abstract: 本发明公开了一种基于多模态双向循环场景流的动态点云压缩方法、系统、存储介质及设备。本发明首先给定连续两帧的点云数据和对应的图片数据，分别提取特征；将图像特征张量与点云特征张量相加，获得融合特征向量；依据特征向量和坐标矩阵得到连续两帧的潜在表示；随后将连续两帧的潜在表示输入至多尺度特征提取模块，获得运动向量。对该运动向量以及前一帧的潜在表示进行运动补偿和压缩。然后基于上下文进行残差压缩，重构残差张量；最后将预测帧和残差张量相加后输入至点云重建模块得到当前帧。本发明利用跨模态信息，实现了不同模态之间的信息互补；从粗到精的方式迭代双向增强特征和场景流估计，在保持高效率的同时显著提高性能。

4.

发明公开
一种基于注意力机制的变形生成模型的方法审中-公开

公开(公告)号：CN119206045A

公开(公告)日：2024-12-27

申请号：CN202411116449.4

申请日：2024-08-14

Applicant: 浙江中南卡通股份有限公司 , 浙江工商大学 , 杭州宇泛智能科技股份有限公司

Inventor： 李锦 , 陆云波 , 沈玉良 , 杨柏林 , 宋超 , 郑东

IPC: G06T17/00 , G06T19/20

Abstract: 本发明涉及三维建模技术领域，具体涉及一种基于注意力机制的变形生成模型的方法，采用如下步骤：S10：首先，准备一个包含任意大小和数量的三维模型数据集，三维模型数据集格式为.ply；对所有模型进行必要的预处理，相应的预处理文件通过符号距离函数来隐式地表示数据集，数据集的格式为.mat；S20：设计一个变形生成模型；S30：训练变形生成模型；S40：反复执行步骤S30，直至达到预设的迭代次数，默认为70轮；每轮遍历所有三维模型；在每一轮迭代结束时，保存模型的参数；它通过巧妙结合变形隐式场模型架构与自注意力模块，充分利用了注意力机制能够捕获全局上下文信息，使得模型能够更全面地建立模型位置之间的联系，从而消除噪声。

Patent Agency Ranking