-
公开(公告)号:CN118887134A
公开(公告)日:2024-11-01
申请号:CN202411364592.5
申请日:2024-09-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京天瞳未来数字科技有限公司
IPC: G06T5/73 , G06T5/50 , G06T5/60 , G06N3/045 , G06N3/0464 , G06N3/0442
Abstract: 本发明属于图像去模糊重建领域,为解决现有技术方法处理大型图像时拼接处常出现错位现象,提供了一种基于图像块知识积累与融合的图像去模糊重建方法及系统。其中,基于图像块知识积累与融合的图像去模糊重建方法包括将模糊图像切分成若干个设定尺寸的模糊图像块;提取每个模糊图像块的浅层特征;对每个模糊图像块的浅层特征进行多步知识积累与融合,再将最后一步得到的每个模糊图像块的特征作为深层特征提取输出;通过残差操作连接每个模糊图像块的深层特征与浅层特征,得到每个模糊图像块的去模糊重建结果;拼接所有模糊图像块的去模糊重建结果,获得去模糊重建图像。其能够获得真实清晰视觉体验的同时,统一图像块边缘,减少错位现象发生。
-
公开(公告)号:CN117611957B
公开(公告)日:2024-03-29
申请号:CN202410077239.2
申请日:2024-01-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学
IPC: G06V10/778 , G06V10/774 , G06V10/762 , G06V10/84
Abstract: 本发明属于计算机视觉中的图像聚类技术领域,为解决现有图像聚类模型聚类性能低的问题,提供一种基于统一正负伪标签的无监督视觉表征学习方法及系统。其中,基于统一正负伪标签的无监督视觉表征学习方法包括预训练分配正标签的深度聚类模型;利用预训练的深度聚类模型为所有图像样本分配正标签,并从中筛选出一组正标签置信度高于设定阈值的图像样本;其中,将筛选出的图像样本作为有标签的图像样本,剩余的图像样本作为无标签的图像样本;利用预训练的深度聚类模型及所有图像样本再进行半监督调整,利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练,其能够在预训练模型的基础上进一步提升聚类性能。
-
公开(公告)号:CN119942055A
公开(公告)日:2025-05-06
申请号:CN202510057291.6
申请日:2025-01-14
Applicant: 天津理工大学 , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V10/24 , G06V10/764 , G06V10/80 , G06V10/762
Abstract: 本发明涉及一种模糊片段增强和假阳性抑制的弱监督时序动作定位方法,属于计算机视觉领域。其包括以下步骤:数据获取;前景注意分数与片段级动作分类;模糊片段增强;动作背景分离;假阳性抑制;视频级动作分类与定位。本发明通过对模糊片段构建正负样本对,并采用对比学习损失约束,来增大模糊片段与可判别动作和背景片段的语义相关性,从而增强模糊片段的判别性,更好地进行前景背景分离;此外依据假阳性片段掩码以及计算假阳性分数对原始激活序列进行假阳性抑制,得到假阳性抑制的激活序列作为伪标签用监督损失约束,对原始的激活序列进行校正,达到抑制假阳性片段的目的,能够获得更准确的动作定位效果。
-
公开(公告)号:CN119625792B
公开(公告)日:2025-05-06
申请号:CN202510151987.5
申请日:2025-02-12
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V40/10 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/0464
Abstract: 本发明涉及一种基于强化共性特征的换衣行人重识别方法及系统,属于计算机视觉技术领域。其包括以下步骤:获取待检索的行人图像数据集,并在数据集中确定原始图像和与原始图像相同身份标签的图像;数据集中图像经过衣服混合与匹配模块、人体身份增强流模块以及ResNet50模型进行特征提取,然后经过共性特征提取模块生成显著图,最后经过分类器得到分类结果;通过损失函数对前述过程进行迭代优化,得到训练好的ResNet50模型;将待检测图像输入到训练好的模型中,得到检索特征;将检索特征与检索库中的行人图像特征进行相似度匹配,得到行人重识别结果。本发明能够提取适应换衣场景下的更有鲁棒性和判别性的特征。
-
公开(公告)号:CN119476410A
公开(公告)日:2025-02-18
申请号:CN202510026657.3
申请日:2025-01-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/096
Abstract: 本发明属于人工智能与深度学习领域,为了解决新旧知识的不平衡和适配性差的问题,提供基于持续知识保护分解的小样本持续学习方法及系统。其中,基于持续知识保护分解的小样本持续学习方法包括基于每个类别的回放样本数据及持续学习模型骨干网络,经奇异值分解得到知识敏感成分和冗余容量成分;在增量适配训练过程中,冻结知识敏感成分所对应的预训练线性权重矩阵;同时利用冗余容量成分来构建可学习的适配器,更新预训练线性权重矩阵;重新获取小样本回放数据,基于更新后的预训练线性权重矩阵再次进行奇异值分解及增量适配训练操作。其通过协方差矩阵的动态更新,实现了新旧知识的平衡和高效适配,提高了分类结果的准确性。
-
公开(公告)号:CN118898255B
公开(公告)日:2025-02-07
申请号:CN202411388055.4
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
IPC: G06F40/30 , G06F40/284 , G06F40/226 , G06N3/042 , G06N3/0464 , G06N3/08 , G06V20/40 , G06V10/80
Abstract: 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
-
公开(公告)号:CN118918516B
公开(公告)日:2024-12-27
申请号:CN202411396801.4
申请日:2024-10-09
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
Abstract: 本发明属于目标视频片段定位技术领域,提供了一种基于语义对齐的目标视频片段定位方法、系统及产品,其技术方案为基于不同层次上的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;根据全局对齐损失函数和局部语义对齐损失函数,对齐视频和文本两种模态的语义特征;推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;根据视频和文本两种模态完整的语义特征替换输入的视觉与文本特征,对目标视频片段定位。本发明能进行有效的跨模态语义对齐建模,从而克服了多模态信息缺失与语义信息模糊的问题,实现目标视频片段的准确检索。
-
公开(公告)号:CN118711168B
公开(公告)日:2024-11-22
申请号:CN202411196066.2
申请日:2024-08-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学
Abstract: 本发明属于视频数据处理技术领域,为解决数据数量、多样性和质量三者无法同时兼顾的问题,提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中,基于无标注网络视频数据的多模态预训练方法包括:利用大语言模型和图像‑文本模型对视频数据集进行初步细化,生成初步的训练数据集,再引入噪音控制损失函数下,初步训练视频‑语言大模型,作为前一阶段训练得到的视频‑语言大模型;在前一阶段训练得到的视频‑语言大模型未训练完成时,利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化,再引入同样噪音控制损失函数下,迭代训练视频‑语言大模型,直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。
-
公开(公告)号:CN118916518A
公开(公告)日:2024-11-08
申请号:CN202411411688.2
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 哈尔滨工业大学(威海)
IPC: G06F16/738 , G06F16/735 , G06N5/022 , G06F16/783
Abstract: 本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统,抽取视频片段的多个视频帧的信息,得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合,进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图;将第一常识图、第二常识图和第三常识图整合后采用图注意力网络,得到所有物体的表征,将所有物体的表征与向量表征集合拼接成为视频表征,以所述视频表征与提示词文本作为大语言模型的输入,得到视频片段的摘要文本描述;本发明通过融合常识知识、场景知识和时空知识,提升了视频摘要生成的准确性和全面性。
-
公开(公告)号:CN118898255A
公开(公告)日:2024-11-05
申请号:CN202411388055.4
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
IPC: G06F40/30 , G06F40/284 , G06F40/226 , G06N3/042 , G06N3/0464 , G06N3/08 , G06V20/40 , G06V10/80
Abstract: 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
-
-
-
-
-
-
-
-
-