基于无监督学习的行人再识别方法及系统

    公开(公告)号:CN113255394B

    公开(公告)日:2025-02-07

    申请号:CN202010082628.6

    申请日:2020-02-07

    Applicant: 清华大学

    Inventor: 王重道 王生进

    Abstract: 本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。

    一种稀疏光场重建方法及装置

    公开(公告)号:CN113129352B

    公开(公告)日:2024-07-26

    申请号:CN202110485198.7

    申请日:2021-04-30

    Applicant: 清华大学

    Abstract: 本发明实施例公开了一种稀疏光场重建方法,包括:根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓;建立目标物体与动态三维场景之间的映射关系;映射关系包括至少一个局部映射关系;局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系;根据映射关系计算目标物体每个表面的几何信息与色彩信息;根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法,通过构建并求解目标物体表面与动态三维场景之间的映射关系,利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建,降低了对三维几何标注数据的依赖和存储复杂度,并提高了光场重建精度与效率。

    一种基于多模板提示学习的视觉分类方法和装置

    公开(公告)号:CN116416480B

    公开(公告)日:2023-08-25

    申请号:CN202310680502.2

    申请日:2023-06-09

    Applicant: 清华大学

    Inventor: 杨舒 王生进

    Abstract: 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

    基于Transformer的两步式领域自适应行人再识别方法

    公开(公告)号:CN115497120A

    公开(公告)日:2022-12-20

    申请号:CN202211166187.3

    申请日:2022-09-23

    Inventor: 余盛铭 王生进

    Abstract: 本发明公开了基于Transformer的两步式领域自适应行人再识别方法,属于行人再识别技术领域,具体包括:将源域图像预处理并添加class token;构建Transformer识别模型,将所述源域图像和class token编码后输入Transformer识别模型,提取源域图像中的行人特征,并反向传播更新模型;获取目标域图像,将目标域图像进预处理并添加class token;将class token作为域指示器,固定模型中除class token以外的参数,将目标域图像编码后输入Transformer识别模型,提取目标域图像中的行人特征,并反向传播更新模型;开放模型中所有参数,将经过过滤的目标域图像输入Transformer识别模型,提取目标域图像的行人特征,并反向传播更新模型;本发明将Transformer应用到领域自适应行人再识别中,提升了识别模型的性能。

    基于半监督学习的行人再识别方法及装置

    公开(公告)号:CN111563424B

    公开(公告)日:2022-08-30

    申请号:CN202010314162.8

    申请日:2020-04-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于半监督学习的行人再识别方法及装置,该方法包括:将多个已标注的有标签图像序列,输入预设的行人再识别模型,进行初步训练;从多个无标签的图像序列中,选取置信度满足预设条件的图像序列,对于每一选取的图像序列,将特征空间中最邻近的有标签图像序列的标签作为伪标签,从而得到多个选取图像序列构成的支持集;将支持集中的图像序列,输入预设的行人再识别模型进行再次训练;基于再次训练得到的模型进行行人再识别。该方法有效解决了实际场景下有标签序列不足、标注困难的问题。在仅有少量的标注序列的前提下,通过对易得的无标签序列生成伪标签,从而得到大量准确度高的训练样本。

    基于无监督学习的行人再识别方法及系统

    公开(公告)号:CN113255394A

    公开(公告)日:2021-08-13

    申请号:CN202010082628.6

    申请日:2020-02-07

    Applicant: 清华大学

    Inventor: 王重道 王生进

    Abstract: 本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。

    一种基于区域特征的图像检索方法及系统

    公开(公告)号:CN106886783B

    公开(公告)日:2020-11-10

    申请号:CN201710048176.8

    申请日:2017-01-20

    Applicant: 清华大学

    Inventor: 王生进 刘紫琼

    Abstract: 本发明提供一种基于区域特征的图像检索方法及系统,所述的方法包括:S1,将输入的待检索图像划分为多个子区域图像;S2,提取每一个所述子区域图像的区域特征,并将每一个区域特征量化为对应的视觉单词;S3,遍历每一个区域特征对应的视觉单词,在数据库倒排表中检索每一个模板图像包含所述视觉单词的个数,将包含视觉单词个数最多的模板图像作为检索结果图像。本发明通过对图像进行分区,提取每一个区域图像的区域特征,通过区域特征的匹配得到检索结果,相比现有的通过局部特征来检索,提取的区域特征个数相比局部特征个数大大减少,提高了图像检索的效率,普适性和扩展性更好。

    一种人脸活体检测方法和装置

    公开(公告)号:CN106897657B

    公开(公告)日:2020-10-27

    申请号:CN201510960637.X

    申请日:2015-12-18

    Abstract: 本发明实施例提供了一种人脸活体检测方法和装置,其中的方法包括:随机生成预设比特长度的检测序列,其中,所述预设比特长度值与预设检测次数值相同;根据生成的检测序列执行预设次数次被检测用户特征采集,所述被检测用户特征为所述被检测用户面部区域特征;根据采集到的被检测用户特征的检测结果生成检测结果序列,其中,一个检测结果对应检测结果序列中的一位数值;确定检测序列与检测结果序列的模糊匹配度;当检测序列与检测结果序列的模糊匹配度大于第一预设阈值时,确定所述被检测用户为活体。本发明实施例能够提高人脸活体检测系统的安全性和可靠性。

    基于半监督学习的行人再识别方法及装置

    公开(公告)号:CN111563424A

    公开(公告)日:2020-08-21

    申请号:CN202010314162.8

    申请日:2020-04-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于半监督学习的行人再识别方法及装置,该方法包括:将多个已标注的有标签图像序列,输入预设的行人再识别模型,进行初步训练;从多个无标签的图像序列中,选取置信度满足预设条件的图像序列,对于每一选取的图像序列,将特征空间中最邻近的有标签图像序列的标签作为伪标签,从而得到多个选取图像序列构成的支持集;将支持集中的图像序列,输入预设的行人再识别模型进行再次训练;基于再次训练得到的模型进行行人再识别。该方法有效解决了实际场景下有标签序列不足、标注困难的问题。在仅有少量的标注序列的前提下,通过对易得的无标签序列生成伪标签,从而得到大量准确度高的训练样本。

    基于时间残差长短时记忆网络的阿拉伯文识别方法及系统

    公开(公告)号:CN107679585A

    公开(公告)日:2018-02-09

    申请号:CN201710889188.3

    申请日:2017-09-27

    Applicant: 清华大学

    CPC classification number: G06K9/6821 G06N3/049 G06N3/08

    Abstract: 本发明提供一种基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,所述方法包括:S1、在长短时记忆LSTM网络中每一LSTM单元中添加时间残差连接,以构造时间残差LSTM网络,所述时间残差连接用于将所述LSTM单元前一时刻的输出加权叠加到所述LSTM单元当前时刻的输出上;S2、基于训练后的所述时间残差LSTM网络,对输入的阿拉伯文图像序列进行识别。本发明提供的基于时间残差长短时记忆网络的阿拉伯文识别方法及系统,通过在时间维度上将残差学习的思想与LSTM相结合,将LSTM网络上一时刻的输出加权叠加到当前输出上,形成时间残差LSTM网络,从而使得较深的神经网络易于训练,提高了阿拉伯文的识别率。

Patent Agency Ranking