-
公开(公告)号:CN119670896A
公开(公告)日:2025-03-21
申请号:CN202510156668.3
申请日:2025-02-13
Applicant: 山东大学 , 北京达佳互联信息技术有限公司
Abstract: 本发明涉及一种时序增强的视频问答方法及系统,涉及时序视频问答领域;包括:步骤1:多维时序指令数据构造;明确并定义五个时序维度,建立数据收集与筛选流程,确保每个时序维度的数据准备工作完备;步骤2:多任务时序指令微调;构造多个时序辅助任务,利用所收集的数据对视频问答模型进行微调,以增强模型的时序问答能力;步骤3:多维时序问答评估;针对五个时序维度,额外收集和构造评估数据集,评估视频问答模型的时序问答能力。针对每个维度都设计了特定的数据收集和构造方法,为增强视频问答模型的时序问答能力提供了数据基础。突破了数据容量的限制,能够在多个维度上有效提升视频问答模型的时序问答能力。
-
公开(公告)号:CN118898797B
公开(公告)日:2024-12-27
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
公开(公告)号:CN118898797A
公开(公告)日:2024-11-05
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
公开(公告)号:CN113590881B
公开(公告)日:2024-03-19
申请号:CN202110910711.2
申请日:2021-08-09
Applicant: 北京达佳互联信息技术有限公司 , 山东大学
IPC: G06F16/783 , G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开关于一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质,该方法包括:获取待查询视频的视频特征和检索文本的文本特征;将视频特征和文本特征输入预先训练的视频片段检索模型,得到待查询视频中与检索文本匹配的候选视频片段;其中,预先训练的视频片段检索模型,为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,目标候选视频片段从候选样本视频片段库中获取,候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段。采用本方法,有利于提高得到的目标视频片段的准确率。
-
公开(公告)号:CN118051794A
公开(公告)日:2024-05-17
申请号:CN202410031135.8
申请日:2024-01-09
Applicant: 山东大学
IPC: G06F18/2321 , G06F18/2413 , G06F123/02
Abstract: 本发明涉及基于时序多表征融合的大气颗粒物时间序列聚类方法、系统及应用,包括:实时监测大气颗粒物浓度数据,大气颗粒物浓度数据包括采集时间、采集地点、监测值、污染类型,形成时间序列数据;基于分段线性表征和分段聚合近似策略,从给定时间序列数据中分别提取出相应的时序特征,从而实现多表征融合的大气颗粒物时间序列特征表示;基于K近邻重要性,计算时间序列区域密度,进而实现基于区域密度的大气颗粒物时间序列聚类。本发明能够有效保留原始时间序列数据的关键特征信息,从而降低数据维度,确保聚类效率。本发明在一定程度上考虑到其在总体时间序列上的分布情况,具有更优的聚类精度。
-
公开(公告)号:CN113590881A
公开(公告)日:2021-11-02
申请号:CN202110910711.2
申请日:2021-08-09
Applicant: 北京达佳互联信息技术有限公司 , 山东大学
IPC: G06F16/783 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本公开关于一种视频片段检索方法、视频片段检索模型的训练方法、装置、电子设备及存储介质,该方法包括:获取待查询视频的视频特征和检索文本的文本特征;将视频特征和文本特征输入预先训练的视频片段检索模型,得到待查询视频中与检索文本匹配的候选视频片段;其中,预先训练的视频片段检索模型,为根据样本视频、样本文本以及与样本文本匹配的目标候选视频片段对待训练的视频片段检索模型进行训练得到的;其中,目标候选视频片段从候选样本视频片段库中获取,候选样本视频片段库中包括按照多种时长划分标准对样本视频进行划分得到的多组候选样本视频片段。采用本方法,有利于提高得到的目标视频片段的准确率。
-
-
-
-
-