-
公开(公告)号:CN118366205A
公开(公告)日:2024-07-19
申请号:CN202410777240.6
申请日:2024-06-17
Applicant: 长城信息股份有限公司
IPC: G06V40/16 , G06N3/0464 , G06N3/08 , G06V10/80 , G06V10/82
Abstract: 本发明涉及一种基于注意力机制的轻量化人脸追踪方法及系统,方法包括:构建预设人脸检测YOLO‑Face模型;使用GSConv对原始特征提取网络进行改进,得到改进特征提取网络;将ASFF网络结构与原始特征融合网络结合,得到改进特征融合网络;将SimAM机制加入原始特征输出网络的检测头中,得到改进特征输出网络;构建得到轻量化人脸追踪模型;通过人脸追踪数据训练集对轻量化人脸追踪模型进行优化训练,得到最优人脸追踪模型;当接收到待追踪图像时,通过最优人脸追踪模型输出人脸追踪结果。通过注意力机制改进轻量化的YOLO‑Face模型,优化了模型结构的同时并通过增加较少的计算量,从而换取人脸追踪效果的提升。
-
公开(公告)号:CN118053172A
公开(公告)日:2024-05-17
申请号:CN202410447119.7
申请日:2024-04-15
Applicant: 长城信息股份有限公司
IPC: G06V30/42 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06N3/084 , G06V10/82 , G06V30/14 , G06V30/148 , G06V30/16 , G06V30/18 , G06V30/19
Abstract: 本发明公开了一种票据微缩文字检测方法、系统及介质,其中方法包括:获取待检测图像并进行剪裁得到多个子图;将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。所述方法能够针对微缩文字在整个票据图像中占比非常小,不易检测的问题,实现准确、快速地检测到票据图像中的微缩文字。
-
公开(公告)号:CN118366204A
公开(公告)日:2024-07-19
申请号:CN202410776303.6
申请日:2024-06-17
Applicant: 长城信息股份有限公司
IPC: G06V40/16 , G06N3/0464 , G06N3/08 , G06V10/82
Abstract: 本发明涉及基于注意力机制改进YOLOv5的人脸检测方法及系统,方法包括:构建预设人脸检测YOLOv5Face模型;使用注意力机制对原始特征提取网络进行改进,得到改进特征提取网络;构建得到改进人脸检测YOLOv5Face模型;获取人脸检测数据训练集;通过人脸检测数据训练集对改进人脸检测YOLOv5Face模型进行优化训练,得到最优人脸检测YOLOv5Face模型;当接收到待检测图像时,通过最优人脸检测YOLOv5Face模型对待检测图像进行处理,输出人脸检测结果。通过注意力机制改进YOLOv5Face模型,优化了模型结构的同时并通过增加较少的计算量,从而换取人脸检测效果的提升。
-
公开(公告)号:CN117237521A
公开(公告)日:2023-12-15
申请号:CN202310172081.2
申请日:2023-02-27
Applicant: 长城信息股份有限公司
IPC: G06T17/00 , G10L25/18 , G10L25/30 , G06T15/20 , G06N3/0442 , G06N3/0475 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种语音驱动人脸生成模型构建方法、目标人说话视频生成方法,其中模型构建方法包括:获取目标人视频数据和音频数据;将视频数据进行分帧,确定每一帧的3DMM系数;分别提取3DMM系数中关联表情和姿态的系数,构建表情特征向量和姿态特征向量;构建基于LSTM网络的语音‑系数映射模型;利用微分渲染器得到初步渲染图序列;构建基于GAN网络的真实感渲染网络;先后对语音‑系数映射模型和真实感渲染网络进行训练,得到最终的语音驱动人脸生成模型。给定目标人驱动音频数据,该模型可以生成具有真实感的目标人人脸渲染帧图像序列,结合驱动音频数据,即可合成高清且具有自然头部动作的目标人说话视频。
-
公开(公告)号:CN118053172B
公开(公告)日:2024-09-13
申请号:CN202410447119.7
申请日:2024-04-15
Applicant: 长城信息股份有限公司
IPC: G06V30/42 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06N3/084 , G06V10/82 , G06V30/14 , G06V30/148 , G06V30/16 , G06V30/18 , G06V30/19
Abstract: 本发明公开了一种票据微缩文字检测方法、系统及介质,其中方法包括:获取待检测图像并进行剪裁得到多个子图;将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。所述方法能够针对微缩文字在整个票据图像中占比非常小,不易检测的问题,实现准确、快速地检测到票据图像中的微缩文字。
-
公开(公告)号:CN114202604A
公开(公告)日:2022-03-18
申请号:CN202111466434.7
申请日:2021-11-30
Applicant: 长城信息股份有限公司
Abstract: 本发明公开了一种语音驱动目标人视频生成方法、装置及存储介质,其中方法包括:获取语音数据和人物上半身正面图像;基于获取的人物上半身正面图像提取初始头部关键点坐标矩阵和初始上半身关键点坐标矩阵;基于获取的语音数据分离语音内容信息和音频信息;基于语音内容信息、音频信息、初始头部关键点坐标矩阵以及初始上半身关键点坐标矩阵,训练语音内容信息、音频信息与头部关键点坐标及上半身关键点坐标之间的多维映射关系;基于多维映射关系生成得到视频图像帧序列;将视频图像帧序列与语言数据进行拼接,得到目标人语音视频。充分考虑了头部动作和上半身的联动,生成的视频自然,真实感强。
-
公开(公告)号:CN115966004A
公开(公告)日:2023-04-14
申请号:CN202211522066.8
申请日:2022-11-30
Applicant: 长城信息股份有限公司
IPC: G06V40/16 , G06N3/048 , G06N3/084 , G06N3/0464
Abstract: 本发明公开了一种基于注意力指导轻量级网络的人脸关键点检测方法,采用优化的深度残差结构作为教师主干网络,使用注意力机制、逐点组卷积(pointwise group convulution)和通道混洗(channel shuffle)在保障精确率损失不多的同时可以大大减少了计算成本,这些轻量级的模型是在牺牲了部分精度的情况下提高计算速率,然后进一步通过复杂但准确性高的教师网络来指导精简的学生网络进行训练,从而得到计算量少,参数少的较精确的网络模型。
-
-
-
-
-
-