-
公开(公告)号:CN120067365A
公开(公告)日:2025-05-30
申请号:CN202411903224.3
申请日:2024-12-23
Applicant: 山东大学
IPC: G06F16/58 , G06N3/0499
Abstract: 本发明涉及基于实体挖掘和修改关系绑定的组合图像检索方法及系统,包括:分批读取训练集数据,并对训练集数据进行全局特征和局部特征的提取;将局部特征通过潜在因素过滤,进一步提取出与修改语义相关的视觉和文本的潜在因素特征;对于潜在因素特征,结合实体‑动作绑定,深入挖掘参考图像和修改文本中的语义关系,探测语义边界,将潜在因素分别聚合为视觉实体和修改动作;对于得到的不同尺度的特征,通过多尺度组合,得到最终的组合特征;将组合特征与图库中的不同图像分别计算点积,作为相似度分数,并对相似度分数进行降序排列,选取相似度分数排名前若干位的目标图像,完成组合图像检索。本发明实现了对用户目标图像的有效检索。
-
公开(公告)号:CN118132677B
公开(公告)日:2025-01-03
申请号:CN202410326442.9
申请日:2024-03-21
Applicant: 山东大学
IPC: G06F16/33 , G06F16/583 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06F18/23213 , G06F18/25
Abstract: 本发明涉及基于跨模态语义解析的图文检索方法及系统,包括:图像表征:对给定图像进行理解并生成显著区域的特征编码;文本表征:对给定文本查询语句进行理解,生成上下文相关的离散词汇编码;使用自注意力机制对图像和文本表征进行模态内特征融合;利用聚合特征产生的哈希码和量化码分别计算图像‑文本对的余弦相似度,经过两轮排序筛选出排名靠前的候选集,引入跨模态注意力机制对候选集计算得到较为精确的细粒度匹配分数,使用相似度重排序对排名关系内部微调,最终实现高性能的跨模态图文检索。
-
公开(公告)号:CN118942017B
公开(公告)日:2024-12-31
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118898797B
公开(公告)日:2024-12-27
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118379599A
公开(公告)日:2024-07-23
申请号:CN202410634901.X
申请日:2024-05-22
Applicant: 山东大学
IPC: G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/0455 , G06V20/70 , G06V10/30
Abstract: 本发明涉及基于异构特征协作的光学遥感显著性目标检测方法及系统,属于遥感图像处理、深度学习技术领域。包括:对给定的光学遥感图像进行异构特征提取,包括:利用卷积神经网络对给定的光学遥感图像进行特征提取,获得不同卷积层提取到的图像局部细节特征;在卷积神经网络的深层引入Transformer网络层,图像全局语义特征;融合提取到的不同阶段的图像全局语义特征和图像局部细节特征;通过构建显著性引导的注意力增强解码器,将不同阶段的特征进行融合,得到最终的显著性目标检测图。本发明实现了对显著性目标的准确定位和精细分割。
-
公开(公告)号:CN113111836B
公开(公告)日:2022-08-19
申请号:CN202110447506.7
申请日:2021-04-25
Applicant: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
Abstract: 一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发明的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
-
公开(公告)号:CN113111836A
公开(公告)日:2021-07-13
申请号:CN202110447506.7
申请日:2021-04-25
Applicant: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
Abstract: 一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
-
公开(公告)号:CN112925822A
公开(公告)日:2021-06-08
申请号:CN202110180044.7
申请日:2021-02-08
Applicant: 山东大学
IPC: G06F16/2458 , G06F16/26 , G06F16/28 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于多表征学习的时间序列分类方法、系统、介质及装置,包括步骤如下:(1)基于不同的时间序列表征策略,对给定的时间序列进行多特征编码;(2)利用残差网络和双向长短时记忆网络,实现表征融合与增强;(3)利用多层感知机网络完成分类,并利用注意力机制实现分类可解释性。本发明通过构建一个多通道时序表征学习模型,能够基于多种表征策略对时序特征进行综合理解。本发明基于残差网络和双向长短时记忆网络的表征融合模型,能够对多视角表征进行有效融合并实现表征增强,从而有效提高分类精度。本发明能够基于注意力机制,对时间序列的重要时序特征进行有效的标识,即能够提供分类结果的可解释性依据,即实现了分类可解释性。
-
公开(公告)号:CN111835738A
公开(公告)日:2020-10-27
申请号:CN202010611946.7
申请日:2020-06-30
IPC: H04L29/06
Abstract: 本发明涉及一种基于时间序列挖掘的网络异常流量自动检测方法,属于数据挖掘、大数据分析与模式识别技术领域,包括数据导入、形成初始时间序列模型、数据切分获得数据子序列、利用快速学习方法得到待检测数据子序列的最优前后松弛空间、计算各数据子序列之间的距离并得到数据子序列相似矩阵、计算异常程度得分,比较判断等步骤。通过标准的数据接入接口,数据导入模块将标准的网络流量数据进行数据值读取,方便地实现数据导入与数据的标准化,转化为时间序列模型,简化了数据采集方式,本发明利用提出的时间序列异常数据检测方法从多个数据维度研究并分析得出异常流量序列,降低了数据的复杂性,同时保留了网络流量原始数据的时间联系性特征。
-
-
-
-
-
-
-
-
-