-
公开(公告)号:CN120032301A
公开(公告)日:2025-05-23
申请号:CN202510510087.5
申请日:2025-04-23
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 北京三快在线科技有限公司 , 浙江大华技术股份有限公司 , 合肥工业大学
IPC: G06V20/40 , G06V10/24 , G06V20/70 , G06V10/80 , G06V10/82 , G06V10/52 , G06N3/0455 , G06N3/09 , G06F16/783
Abstract: 本发明提供了一种第一视角视频定位方法及系统,获取第一视角视频和查询文本;使用预训练的物品检测器从第一视角视频中提取物品注释,并通过与查询文本中的名词匹配筛选出与查询相关的物品类别;利用预训练的特征编码器编码视频、物品和文本信息,提取出视频特征、物品特征与文本特征,进行文本特征上下文建模,并执行文本与物品间的特征交互;利用包含使用选择性状态空间的线性时间序列模型以及交叉注意力的多模态融合模块进行视频特征序列理解和特征融合,获得多模态特征表示;使用所述多模态特征表示,进行第一视角视频片段定位。本发明克服了现有技术中缺乏细粒度语义信息和难以理解第一视角视频的缺陷。
-
公开(公告)号:CN119476410B
公开(公告)日:2025-05-09
申请号:CN202510026657.3
申请日:2025-01-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/096
Abstract: 本发明属于人工智能与深度学习领域,为了解决新旧知识的不平衡和适配性差的问题,提供基于持续知识保护分解的小样本持续学习方法及系统。其中,基于持续知识保护分解的小样本持续学习方法包括基于每个类别的回放样本数据及持续学习模型骨干网络,经奇异值分解得到知识敏感成分和冗余容量成分;在增量适配训练过程中,冻结知识敏感成分所对应的预训练线性权重矩阵;同时利用冗余容量成分来构建可学习的适配器,更新预训练线性权重矩阵;重新获取小样本回放数据,基于更新后的预训练线性权重矩阵再次进行奇异值分解及增量适配训练操作。其通过协方差矩阵的动态更新,实现了新旧知识的平衡和高效适配,提高了分类结果的准确性。
-
公开(公告)号:CN119295886B
公开(公告)日:2025-04-18
申请号:CN202411844794.X
申请日:2024-12-16
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V10/80 , G06V10/44 , G06V10/774 , G06V10/82 , G06V20/62 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于多尺度特征融合的X‑ray图像违禁品检测方法,属于图像处理技术领域。其包括以下步骤:获取X‑ray违禁品数据集,并将数据集划分为训练集和测试集;构建基于多尺度特征融合的X‑ray图像违禁品目标检测模型,所述模型包括图像分支、自适应高低通滤波器模块、文本分支、Neck层和Head头;训练集中图像输入到模型中对模型进行训练;采用损失函数对模型进行优化,得到训练好的模型;测试集中图像输入到训练好的模型中,得到违禁品检测结果。本发明通过图像文本的联合训练,在实时监测任务中提升性能的同时更加高效,减少计算量和内存占用,解决了复杂场景中图像边界细节模糊问题。
-
公开(公告)号:CN119397366A
公开(公告)日:2025-02-07
申请号:CN202510007379.7
申请日:2025-01-03
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F18/241 , G06F18/2135 , G06N3/084 , G06N3/048 , G06N3/0895
Abstract: 本发明属于人工智能与深度学习领域,提供基于自适应适配层选择的小样本持续学习方法及系统。其中,基于自适应适配层选择的小样本持续学习方法包括将预训练线性权重的奇异值;冻结知识敏感成分所对应的预训练线性权重矩阵;自适应确定适配层;基于适配层的适配器矩阵与当前增量适配训练阶段的训练样本特征相乘,得到冗余容量特征;重新获取小样本回放数据,基于更新后的预训练线性权重矩阵依次进行奇异值分解、适配层自适应确定及增量适配训练操作,直至持续学习模型达到设定要求时停止学习,以利用训练好的持续学习模型执行分类任务。其实现了对最小化旧知识干扰的动态适配器选择,保障了小样本持续学习模型的分类准确性。
-
公开(公告)号:CN118942017B
公开(公告)日:2024-12-31
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118898797B
公开(公告)日:2024-12-27
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
Abstract: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN119444578B
公开(公告)日:2025-05-09
申请号:CN202510024781.6
申请日:2025-01-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京天瞳未来数字科技有限公司
IPC: G06T3/4053 , G06T3/4046 , G06N3/0455 , G06N3/08
Abstract: 本发明属于图像超分辨率重建领域,为解决目前超分辨率重建效果差的问题,提供基于混合专家和稳定扩散的图像超分辨率重建方法及系统。基于混合专家和稳定扩散的图像超分辨率重建方法包括得到多尺度控制条件及空间控制条件;生成加噪特征隐层空间表示;经过多个采样时间步,不断从去噪主干网络的当前采样时间步的输入中减去当前时间步的去噪主干网络预测的噪声,然后将去噪结果作为下一个时间步去噪主干网络的输入,多个采样时间步完成后,得到重建图像的隐层空间表达;将重建图像的隐层空间表达解码至图像像素空间,得到图像超分辨率重建结果,提高了真实清晰的超分辨率重建效果。
-
公开(公告)号:CN119229478B
公开(公告)日:2025-01-28
申请号:CN202411755122.1
申请日:2024-12-03
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 天津理工大学 , 合肥工业大学
IPC: G06V40/10 , G06V10/26 , G06V10/44 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,提供了一种基于结合人体语义与三维重构的行人搜索方法及系统。步骤如下:首先获取待检索的行人图像,将图像输入训练好的换衣行人特征提取网络,提取在换衣情况下的行人特征,换衣行人重特征提取网络通过换衣模块扩充数据集样本,使模型重点学习衣服区域外的行人特征表示,减轻衣服变化带来的干扰,对行人图像进行三维建模,仅保留行人头部,学习额外的行人体型和头部特征,最后将原始图像特征与三维建模图像特征进行特征融合得到全局的行人特征,利用得到的待检索图像的行人特征与检索图库中的行人特征进行相似度匹配,根据相似性得分进行排序得到行人检索结果。本发明可以大幅度提升行人搜索的准确率和鲁棒性。
-
-
-
-
-
-
-
-
-