-
公开(公告)号:CN119539013A
公开(公告)日:2025-02-28
申请号:CN202510080721.6
申请日:2025-01-20
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06N3/084 , G06N3/0985 , G06N3/0455 , G06V10/82 , G06V10/25 , G06V10/764 , G06V20/70 , G06F40/30 , G06F18/25 , G06F18/22
Abstract: 本公开的实施例涉及目标检测领域,具体涉及基于小样本提示微调的多模态检测模型训练方法和装置。该方法的一实施方式包括:获取训练样本集和初始多模态检测模型;执行训练步骤:得到文本语义嵌入向量序列,对第一层文本提示向量序列与文本语义嵌入向量序列进行拼接处理,得到初始文本嵌入向量序列;得到图像块嵌入向量序列组,对第一层图像提示向量序列与图像块嵌入向量序列进行拼接处理,得到初始图像嵌入向量序列组;得到图像文本相似度矩阵组;对各个图像文本相似度矩阵进行融合处理,得到图像文本对齐分数矩阵;生成分类标注图像;确定多模态检测损失值;确定多模态检测模型。该实施方式可以降低多模态检测模型的复杂度,减少计算资源的占用。
-
公开(公告)号:CN119495127A
公开(公告)日:2025-02-21
申请号:CN202510075914.2
申请日:2025-01-17
Applicant: 北京航空航天大学杭州创新研究院 , 北京航空航天大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/044 , G06N3/0464
Abstract: 本公开的实施例涉及视频检测技术领域,具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括:获取视频行为识别数据集和初始视频行为识别模型;对于每个视频行为识别数据,执行以下步骤:确定视频行为识别数据包括的视频帧序列对应的关键帧图像;将关键帧图像存储至预设图像存储位置;基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签,生成训练样本,其中,训练样本包括样本图像和样本标签数据;对初始视频行为识别模型进行训练,以及确定为视频行为识别模型;将目标视频数据输入视频行为识别模型,得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。
-
公开(公告)号:CN118762219A
公开(公告)日:2024-10-11
申请号:CN202410770226.3
申请日:2024-06-14
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06V10/764 , G06V10/40 , G16H30/00 , G16H70/60
Abstract: 本公开的实施例公开了全局特征病理图像分级方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:按照预设分辨率对获取的每个全切片图像进行图像块裁剪,以生成裁剪后图像块信息,得到裁剪后图像块信息集;将裁剪后图像块信息集中的每个裁剪后图像块信息输入至预设目标检测网络,以生成目标区域坐标位置信息和对应目标区域坐标位置的置信度信息,得到目标区域坐标位置信息集和对应目标区域坐标位置集的置信度信息集;对分类结果进行切片分级,得到分级后切片结果。该实施方式缩短了全局特征病理图像分级的周期,降低了误检率和漏检率,提高了全局特征病理图像分级的结果的全局性。
-
公开(公告)号:CN118172547B
公开(公告)日:2024-07-30
申请号:CN202410605736.5
申请日:2024-05-16
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06V10/25 , G06V10/28 , G06V10/771 , G06V10/74
Abstract: 本公开的实施例公开了图像目标识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对输入图像中的各个前景目标进行标记处理;对前景目标矩形框区域进行特征提取,生成前景目标图像特征;执行以下步骤:将前景目标图像特征与待检测目标图像特征之间的相似度确定为初始特征相似度;对各个待检测目标图像特征进行排序;选择初始特征作为第一筛选特征集合;执行以下步骤:生成第二筛选特征集合;生成前景目标图像特征和初始特征的相似度;生成对应前景目标图像特征的图像目标信息。该实施方式在针对新的图像目标检测需求信息可以不需要重新采集图像数据,节约了计算资源,缩短了图像目标检测的时间。
-
公开(公告)号:CN117636100B
公开(公告)日:2024-04-30
申请号:CN202410101911.7
申请日:2024-01-25
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06V10/774 , G06V10/762 , G06V10/764 , G06V10/82 , G06V10/80 , G06N3/045 , G06N3/084
Abstract: 本公开的实施例公开了预训练任务模型调整处理方法、装置、电子设备和介质。该方法的一具体实施方式包括:根据未标注图像集合,生成标注图像组集合;生成标注特征向量组集合;根据标注图像组集合,确定聚类类别信息;生成未标注特征向量集合;对未标注特征向量集合进行聚类处理;生成聚类中心信息集合;生成标注图像中心信息集合;根据聚类中心信息集合和标注图像中心信息集合,确定校准中心信息集合;根据校准中心信息集合,生成特征向量组集合;确定伪标签特征向量组集合;确定扩展标签图像组集合;对预训练任务模型进行调整处理。该实施方式可以减少计算机处理器资源的浪费,缩减所选择数据的类别分布与总体样本的类别分布偏差。
-
公开(公告)号:CN117574930B
公开(公告)日:2024-04-12
申请号:CN202410052300.8
申请日:2024-01-15
Applicant: 北京航空航天大学杭州创新研究院
Abstract: 本公开的实施例公开了立体条形码信息生成方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:将双线平行激光束投射至目标立体条形码图案上;对目标立体条形码图案进行图像采集;对立体条形码图像进行条形码图像分割处理,以生成上行条形码图像和下行条形码图像;对上行条形码图像进行激光线细化处理;对下行条形码图像进行激光线细化处理;对激光线细化上行条形码像素点进行直线拟合处理;对激光线细化下行条形码像素点进行直线拟合处理;生成上行像素距离集合;生成下行像素距离集合;将上行条形码图像对应的待解码字符串和下行条形码图像对应的待解码字符串进行组合处理;生成立体条形码信息。该实施方式提高了条形码的解码准确率。
-
公开(公告)号:CN117574930A
公开(公告)日:2024-02-20
申请号:CN202410052300.8
申请日:2024-01-15
Applicant: 北京航空航天大学杭州创新研究院
Abstract: 本公开的实施例公开了立体条形码信息生成方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:将双线平行激光束投射至目标立体条形码图案上;对目标立体条形码图案进行图像采集;对立体条形码图像进行条形码图像分割处理,以生成上行条形码图像和下行条形码图像;对上行条形码图像进行激光线细化处理;对下行条形码图像进行激光线细化处理;对激光线细化上行条形码像素点进行直线拟合处理;对激光线细化下行条形码像素点进行直线拟合处理;生成上行像素距离集合;生成下行像素距离集合;将上行条形码图像对应的待解码字符串和下行条形码图像对应的待解码字符串进行组合处理;生成立体条形码信息。该实施方式提高了条形码的解码准确率。
-
公开(公告)号:CN117333560A
公开(公告)日:2024-01-02
申请号:CN202311631211.0
申请日:2023-12-01
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06T9/00 , G06T7/41 , G06V10/764
Abstract: 本公开的实施例公开了场景自适应的条纹结构光解码方法、装置、设备和介质。该方法的一具体实施方式包括:获取对应目标物体的全局照明图像和反射图像序列;对反射图像序列进行分类,得到第一反射图像子序列、第二反射图像子序列和第三反射图像子序列;根据全局照明图像、第一反射图像子序列和第二反射图像子序列,生成各个归一化像素值组;确定各个条纹宽度信息组;对各个归一化像素值组进行亚像素定位,以确定各个亚像素位置信息;对第三反射图像子序列中的各个第三反射图像进行解码,以生成各个解码信息;生成对应目标物体的各个点云信息。该实施方式可以提高条纹亚像素定位的精度,从而可以提高所获取的点云信息准确率且减少点云信息的缺失。
-
公开(公告)号:CN116468725B
公开(公告)日:2023-09-05
申请号:CN202310691667.X
申请日:2023-06-13
Applicant: 北京航空航天大学杭州创新研究院
IPC: G06T7/00 , G06F18/25 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0499 , G06N3/084
Abstract: 本发明涉及基于预训练模型的工业缺陷检测方法、装置及存储介质,应用于工业缺陷检测技术领域,包括:通过获取工业缺陷检测图像数据集来训练视觉语言模型,针对每种场景下的每种工业缺陷设置语言文本,通过语言文本描述目标缺陷的特征,将待检测图像和目标缺陷所对应的语言文本一并输入到预训练的视觉语言模型中,这样预训练的视觉语言模型就可以结合待检测图像以及目标缺陷的语言文本,通过在待检测图像上寻找与语言文本相关联的物体区域,从而实现目标缺陷的检测;本申请中,针对每一种缺陷设置不同的语言文本,而不是针对每一种缺陷单独训练模型,从而节省模型训练过程中花费的时间,节约成本,同时还能实现工业检测上多种缺陷的识别检测。
-
公开(公告)号:CN114782290A
公开(公告)日:2022-07-22
申请号:CN202210715254.6
申请日:2022-06-23
Applicant: 北京航空航天大学杭州创新研究院
Abstract: 本公开的实施例公开了视差图修正方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:获取双目图像中的左图像和右图像;将左图像和右图像重复输入多分支的立体匹配网络,得到各个分支对应的各个分支概率分布信息集合;根据各个分支概率分布信息集合,生成分支目标概率分布信息集合和预测分支置信度信息集合;根据分支目标概率分布信息集合和预测分支置信度信息集合,生成预测视差图的置信度信息;根据置信度信息,修正预测视差图,得到修正视差图。该实施方式可以在训练过程中无需提供置信度信息标签,即可在半监督、全监督、无监督等任务中生成视差图的置信度信息,从而可以用于修正视差图。
-
-
-
-
-
-
-
-
-