场景文字识别模型的训练方法与识别方法及装置

    公开(公告)号:CN113762241A

    公开(公告)日:2021-12-07

    申请号:CN202111028327.6

    申请日:2021-09-02

    Applicant: 清华大学

    Abstract: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。

    一种稀疏光场重建方法及装置

    公开(公告)号:CN113129352A

    公开(公告)日:2021-07-16

    申请号:CN202110485198.7

    申请日:2021-04-30

    Applicant: 清华大学

    Abstract: 本发明实施例公开了一种稀疏光场重建方法,包括:根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓;建立目标物体与动态三维场景之间的映射关系;映射关系包括至少一个局部映射关系;局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系;根据映射关系计算目标物体每个表面的几何信息与色彩信息;根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法,通过构建并求解目标物体表面与动态三维场景之间的映射关系,利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建,降低了对三维几何标注数据的依赖和存储复杂度,并提高了光场重建精度与效率。

    用于目标检测的卷积神经网络模型的压缩方法和系统

    公开(公告)号:CN108898168B

    公开(公告)日:2021-06-01

    申请号:CN201810628418.5

    申请日:2018-06-19

    Applicant: 清华大学

    Inventor: 王生进 舒晗

    Abstract: 本发明实施例提供用于目标检测的卷积神经网络模型的压缩方法和系统。其中,方法包括:获取未经训练的用于目标检测的卷积神经网络模型,并将卷积神经网络模型中的特征提取网络的网络结构进行简化,获取简化网络;根据知识蒸馏方法对网络结构简化前后的特征提取网络进行联合训练,确定简化网络的参数;将卷积神经网络模型中的特征提取网络替换为确定参数后的简化网络,并根据样本图像对卷积神经网络模型进行训练,获取压缩后的用于目标检测的卷积神经网络模型。本发明实施例提供的用于目标检测的卷积神经网络模型的压缩方法和系统,具有较高的准确率并能减少模型的参数,使得压缩后的模型能运行于计算资源受限的平台上。

    一种场景语义分割方法、装置、电子设备

    公开(公告)号:CN112446385B

    公开(公告)日:2021-04-30

    申请号:CN202110125033.9

    申请日:2021-01-29

    Applicant: 清华大学

    Abstract: 本发明公开了一种场景语义分割方法、装置、电子设备,该方法包括:如果场景原始点云对应体素块的粒度大于粒度阈值,则根据所述体素块特征和原始点云特征,得到下一分割点云;如果所述有效体素块细分后下一体素块粒度小于等于所述粒度阈值,则根据所述下一分割点云添加语义标签作为场景语义分割结果;如果所述有效体素块细分后下一体素块粒度大于所述粒度阈值,则根据所述下一体素块特征和下一分割点云特征,得到新下一分割点云;直至所述有效体素块细分后的新下一体素块的粒度小于等于所述粒度阈值,则将所述新下一分割点云添加语义标签作为场景语义分割结果。本发明实施例在场景不同粒度下有足够上下文信息进行整合,减少计算复杂度。

    行人检测方法和装置
    25.
    发明授权

    公开(公告)号:CN109871792B

    公开(公告)日:2020-12-29

    申请号:CN201910099888.1

    申请日:2019-01-31

    Applicant: 清华大学

    Inventor: 王生进 王晗

    Abstract: 本发明实施例提供一种行人检测方法和装置。其中,方法包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。本发明实施例提供的行人检测方法和装置,能在保证高检测速度的前提下,提高检测准确性。

    一种物体检测方法及装置
    26.
    发明授权

    公开(公告)号:CN107545263B

    公开(公告)日:2020-12-15

    申请号:CN201710652233.3

    申请日:2017-08-02

    Applicant: 清华大学

    Inventor: 王生进 李栋

    Abstract: 本发明实施例提供一种物体检测方法及装置,所述方法包括:接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制,获得所述样本图片中各个感兴趣物体的检测结果。本发明实施例实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。

    行人检测方法和装置
    27.
    发明公开

    公开(公告)号:CN109871792A

    公开(公告)日:2019-06-11

    申请号:CN201910099888.1

    申请日:2019-01-31

    Applicant: 清华大学

    Inventor: 王生进 王晗

    Abstract: 本发明实施例提供一种行人检测方法和装置。其中,方法包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。本发明实施例提供的行人检测方法和装置,能在保证高检测速度的前提下,提高检测准确性。

    一种行人识别方法和装置
    28.
    发明公开

    公开(公告)号:CN106529442A

    公开(公告)日:2017-03-22

    申请号:CN201610949687.2

    申请日:2016-10-26

    Applicant: 清华大学

    Inventor: 王生进 田露

    Abstract: 本发明提供一种行人识别方法和装置,其中该方法包括:根据图像中的行人位置,标定行人区域,分离单独的行人图像;根据行人区域和单独的行人图像,标定行人数据集,将行人图像对应于行人体型;根据行人图像,基于卷积神经网络分析获取行人的属性特征。本发明通过行人图像的体型判断,利用基于深度学习的多任务卷积神经网络,在离线训练过程中针对不同性别、不同的行人视角训练一个统一的体型判断模型,有效的解决行人视角的问题,提高了算法准确度。

    基于路面标识识别违规驾驶行为的方法及系统

    公开(公告)号:CN103116748B

    公开(公告)日:2016-03-23

    申请号:CN201310077048.8

    申请日:2013-03-11

    Applicant: 清华大学

    Abstract: 本发明提出一种基于路面标识识别违规驾驶行为的方法及系统。其中,方法包括以下步骤:获取车辆行驶的道路图像,并对道路图像进行预处理以生成道路图像的二值化图像;根据二值化图像中的白像素点确定道路的边界以生成道路边界线;从道路图像中检测与道路边界线对应的道路线之间是否有引导标识,其中,引导标识包括公交专用标识和方向标识;以及当引导标识为方向标识时,根据方向标识和车辆状态信息判断车辆是否违规行驶。根据本发明实施例的方法,通过生成道路图像的二值化图像,并在该二值化图像中判别引导标识识别驾驶是否规范,提前预防了交通事故的发生,进而提高了驾驶的安全性。

    基于眼部信息的活体人脸检测方法及装置

    公开(公告)号:CN105243378A

    公开(公告)日:2016-01-13

    申请号:CN201510781590.0

    申请日:2015-11-13

    CPC classification number: G06K9/00228 G06K9/00906

    Abstract: 本发明提供基于眼部信息的活体人脸检测方法及装置,方法包括:获取待检测人脸图像序列,对其进行光流场估计并获取其中眼睛区域;确定序列中各帧眼睛区域各像素光流,判断各帧眼睛区域各像素光流是否一致,若否则确定检测第一结果为活体,若是则确定检测第一结果为假体;计算序列中各帧眼睛区域二值化图像间的汉明距离,根据其确定活体分数,若活体分数大于等于预设阈值则确定检测第二结果为活体,若活体分数小于预设阈值则确定检测第二结果为假体;判断序列中是否存在眨眼动作,若是则确定检测第三结果为活体,若否则确定检测第三结果为假体;将三种结果融合获取最终检测结果。该方法能检测人脸是否为活体,复杂度低、不需人主动配合、鲁棒性强。

Patent Agency Ranking