-
公开(公告)号:CN117373129A
公开(公告)日:2024-01-09
申请号:CN202311375163.3
申请日:2023-10-23
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明属于连续手语识别领域,公开了一种基于双路径刺激的连续手语识别方法,包括:获取待识别的手语视频,解析手语视频将视频帧序列输入特征提取器;特征提取器通过主干网络输出视觉特征,主干网络中插入有一个或多个双路径刺激,所述双路径刺激包括全局解释刺激和局部波动刺激两条刺激路径,视频帧序列分别输入全局解释刺激和局部波动刺激,并综合全局解释刺激和局部波动刺激的输出后得到双路径刺激的输出;将得到的视觉特征输入对齐模块,所述对齐模块通过双向长短期记忆网络和分类器输出连续手语识别预测结果。本发明有效提高连续手语识别效果,降低计算成本。
-
公开(公告)号:CN113780209A
公开(公告)日:2021-12-10
申请号:CN202111085993.3
申请日:2021-09-16
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于注意力机制的人脸属性编辑方法,命名为DAGAN。该方法提出了一个基于注意力机制的传输单元,包括位置注意力模块和通道注意力模块;此外,该方法采用多尺度输入的方法,与编码器‑解码器相结合,同时提高了属性编辑能力和图像的生成质量。本发明所提出的对偶注意力机制的人脸属性编辑方法,极大地提升了编辑效率,在保证模型轻便的同时提高了属性编辑准确度。
-
公开(公告)号:CN106447681B
公开(公告)日:2019-01-29
申请号:CN201610604569.8
申请日:2016-07-26
Applicant: 浙江工业大学
IPC: G06T7/12
Abstract: 一种非均一严重运动退化图像的对象分割方法,使用均值漂移算法为退化图像创建超像素,计算超像素的复合特征,接着使用一种多路背景搜索的算法,结合超像素复合特征,从初始背景超像素开始扩张,获得背景超像素集,最后从图像中分割出部分模糊的对象。本发明采用背景反推对象的方法,比直接在对象上选取种子的方式更方便,准确性更高,且能有效避免因为一般模糊参数计算无法贴近自然轮廓的问题;使用种子搜索的方式,克服了一般模糊图像分割严重依赖模糊计算结果的缺点。
-
公开(公告)号:CN119251867A
公开(公告)日:2025-01-03
申请号:CN202411276030.5
申请日:2024-09-12
Applicant: 浙江工业大学
Abstract: 本发明公开了一种基于全MLP架构的高度紧凑型人体长时运动预测方法,包括:获取原始时序人体骨架数据并进行预处理,预处理为将原始时序人体骨架数据由时域变换为频域后映射到高维空间,形成高维空间特征;建立全MLP架构模型,包括N个依次连接的动态时空特征感知模块;将高维空间特征输入全MLP架构模型,获得第一提取特征;将第一提取特征依次经过层归一化和第一线性层从高维空间恢复至三维空间;将恢复后的第一提取特征从频域变换为时域,形成第二提取特征;将第二提取特征输入多时段联合预测模块,获得最终预测结果。通过轻量化设计大大减少模型的参数量,从而降低了计算复杂度与资源消耗,提高了预测的准确性和可靠性,通用性好。
-
公开(公告)号:CN119206869A
公开(公告)日:2024-12-27
申请号:CN202411334582.7
申请日:2024-09-24
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V10/62 , G06V10/764 , G06V10/82 , G06N3/044 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于跨模态连续时序约束的手语识别方法,在训练手语视觉识别网络模型时引入辅助语言模型和跨模态连续时序约束模块,将视频样本输入至手语视觉识别网络模型,获取视觉特征,然后通过多层感知机投影得到对应的视觉中间特征;并将辅助语言序列,输入至辅助语言模型,获取语言特征,然后通过多层感知机投影得到对应的语言中间特征;然后将视觉中间特征和语言中间特征输入跨模态连续时序约束模块,计算模态间输出差异指标和跨模态连续约束损失,完成手语视觉识别网络模型的训练。从而通过训练完成的手语视觉识别网络模型来进行手语识别。本发明增强了算法的性能,从而推动人工智能在动作识别、手语识别等领域的应用。
-
公开(公告)号:CN119206868A
公开(公告)日:2024-12-27
申请号:CN202411334343.1
申请日:2024-09-24
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/042 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种基于特征金字塔的骨架动作识别方法,将待检测骨架序列输入到由预设数量的金字塔图卷积块组成的特征提取网络,获得人体骨架的多尺度特征;然后,对特征提取网络输出的多尺度特征进行帧融合和个体融合,得到通道数维度向量;最后对通道数维度向量进行线性投影变化后,经过分类函数得到识别结果。本发明通过捕捉骨架序列的多尺度空间特征,增强了模型的表征能力,通过基于注意力的图池化模块,能够有效地将骨架压缩为多个低阶子图,相比于现有技术方案,本申请实现了最高的识别准确率。
-
公开(公告)号:CN112364928A
公开(公告)日:2021-02-12
申请号:CN202011292591.6
申请日:2020-11-18
Applicant: 浙江工业大学
Abstract: 一种变电站故障数据诊断中的随机森林分类方法,从变电站故障诊断系统中提取数据,对数据进行预处理,得到原始样本集,包括以下步骤:(1)建立随机森林模型;(2)对原始随机森林模型进行重要性分析;(3)对原始样本集进行处理,保留结果与所选出的特征,生成新的样本集,同时对测试集进行相同处理;(4)使用新样本集,重复步骤(1)得到最终随机森林模型;(5)利用测试集对随机森林模型进行测试,评估模型性能;(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。本发明减少了大量的实时数据处理量,加快系统分类速度,保证决策系统实时性;分类性能好;避免过拟合。
-
公开(公告)号:CN107578426A
公开(公告)日:2018-01-12
申请号:CN201710616690.7
申请日:2017-07-26
Applicant: 浙江工业大学
Abstract: 一种面向严重退化视频的实时光流分析跟踪方法,包括如下步骤:1)统计退化特征,对每一个像素计算其运用方向,并以此来描述这个像素的运动退化情况,单一像素的方向评估是通过一个局部自相关函数获得的,构建单位矢量来表示一个像素的运动;2)构建统计退化模型,在模型中引入了三个不同的特征来应对具有挑战性的跟踪任务,包括对目标变形鲁棒的颜色分布,对照明变化鲁棒的梯度分布,以及对快速运动和运动模糊鲁棒的退化分布,对于每个特征,学习目标的特征得分;获得指示目标位置的最终得分。本发明提供了一种实时性较好、有效实现实时跟踪、跟踪准确率较高的面向严重退化视频的实时光流分析跟踪方法。
-
公开(公告)号:CN113781376B
公开(公告)日:2024-02-23
申请号:CN202111085995.2
申请日:2021-09-16
Applicant: 浙江工业大学
IPC: G06T5/50 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V40/16 , G06V10/74
Abstract: 本发明公开了一种基于分治融合的高清人脸属性编辑方法,属于计算机视觉领域。该方法提出了一个包含低清人脸编辑网络与高清人脸图像融合网络的人脸属性编辑框架。先对原始高分辨率图像进行下采样后得到低分辨率的人脸图像,在低清人脸编辑网络中对低分辨率的人脸图像进行属性编辑后上采样至原大小;在高清人脸图像融合网络中对原始高分辨率图像与上采样的人脸图像进行切片,利用双通道编码器编码,再与属性差值向量融合,之后在解码器中解码得到结果切片,最后按位置拼接得到高清人脸图像。本发明提出的高清人脸属性编辑方法被验证具有较高的图像生成效率且生成的图像具有较高质量。
-
公开(公告)号:CN109344750B
公开(公告)日:2021-10-22
申请号:CN201811101377.0
申请日:2018-09-20
Applicant: 浙江工业大学
IPC: G06K9/00
Abstract: 本发明公开了一种基于结构描述子的复杂结构三维对象识别方法,提取目标真实三维点云中各个部件对应的点云单元,采用各个部件对应的点云单元的包围盒大小、核心点云单元的中心到其他点云单元的中心的距离、每对点云单元中心与核心点云单元中心连线所成的夹角,构建标准的三维结构描述子,对待识别的三维场景进行分割,得到三维场景中的所有点云单元,构建候选三维结构描述子,计算候选三维结构描述子与标准结构描述子的曼哈顿距离,如果距离小于设定的第二阈值,则所述候选三维结构描述子对应的点云单元就是需要识别的对象。本发明计算消耗小,且能在三维点云场景中实现快速准确的复杂结构三维对象识别。
-
-
-
-
-
-
-
-
-