-
公开(公告)号:CN118897904A
公开(公告)日:2024-11-05
申请号:CN202411388060.5
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC: G06F16/732 , G06F16/75 , G06F40/30
Abstract: 本发明属于自然语言处理领域,提供了一种查询语句语义树生成编码方法及系统,获取给定的查询语句,根据查询语句的完备性,对其进行分类;对于其中的不完备的查询语句,利用过程补全大语言模型进行基于思维链引导的查询过程的补全;基于完备的查询语句或补全后的查询语句,通过成分分析树提取相邻词语之间的深入语义关联,通过依存语法树提取非相邻词语的长距离关联,融合依存语法树和成分分析树,形成最终的语义树。本发明对查询语句进行完备性分类,随后利用大型语言模型自动推断和完善查询语句,从而生成能够准确反映动作中间过程的语义树,实现关键语义内容的补充,可以支持在开放场景视频中进行精准的动作检索和定位。
-
公开(公告)号:CN118711168A
公开(公告)日:2024-09-27
申请号:CN202411196066.2
申请日:2024-08-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学
Abstract: 本发明属于视频数据处理技术领域,为解决数据数量、多样性和质量三者无法同时兼顾的问题,提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中,基于无标注网络视频数据的多模态预训练方法包括:利用大语言模型和图像‑文本模型对视频数据集进行初步细化,生成初步的训练数据集,再引入噪音控制损失函数下,初步训练视频‑语言大模型,作为前一阶段训练得到的视频‑语言大模型;在前一阶段训练得到的视频‑语言大模型未训练完成时,利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化,再引入同样噪音控制损失函数下,迭代训练视频‑语言大模型,直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。
-
公开(公告)号:CN117648429B
公开(公告)日:2024-04-30
申请号:CN202410121781.3
申请日:2024-01-30
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学
IPC: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04 , G06N3/0464 , G06N3/08
Abstract: 本发明属于问答模型技术领域,为解决现有生成答案的准确率低的问题,提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中,基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题;基于多模态自适应检索式增强大模型及多模态知识库,生成预测答案;多模态自适应检索式增强大模型包括检索器、检索排序器和生成器;检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征,计算每个知识和问题的相似度,选取TOP‑K知识;根据问题及知识标签,利用检索排序器从TOP‑K知识中判定出与问题相关的知识,得到检索的相关知识;生成器生成预测答案,其能够大大提高了模态问答的检索和生成答案的准确率。
-
公开(公告)号:CN117593215B
公开(公告)日:2024-03-29
申请号:CN202410077241.X
申请日:2024-01-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明属于图像自监督预训练领域,为解决生成模型生成图像的准确性差的问题,提供一种生成模型增强的大规模视觉预训练方法及系统。其中,生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型,自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,使用预训练的图像编码器提取正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献,计算每个正样本对的重新加权因子,得到最终损失函数,以确定是否继续训练生成模型,其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。
-
公开(公告)号:CN117611957A
公开(公告)日:2024-02-27
申请号:CN202410077239.2
申请日:2024-01-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学
IPC: G06V10/778 , G06V10/774 , G06V10/762 , G06V10/84
Abstract: 本发明属于计算机视觉中的图像聚类技术领域,为解决现有图像聚类模型聚类性能低的问题,提供一种基于统一正负伪标签的无监督视觉表征学习方法及系统。其中,基于统一正负伪标签的无监督视觉表征学习方法包括预训练分配正标签的深度聚类模型;利用预训练的深度聚类模型为所有图像样本分配正标签,并从中筛选出一组正标签置信度高于设定阈值的图像样本;其中,将筛选出的图像样本作为有标签的图像样本,剩余的图像样本作为无标签的图像样本;利用预训练的深度聚类模型及所有图像样本再进行半监督调整,利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练,其能够在预训练模型的基础上进一步提升聚类性能。
-
公开(公告)号:CN119379524B
公开(公告)日:2025-05-06
申请号:CN202411918332.8
申请日:2024-12-25
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06T1/00 , G06N3/0455 , G06N3/0475 , G06N3/09 , G06N3/094
Abstract: 本发明涉及一种基于多重水印融合与跨域学习的图像伪造主动防御方法,属于计算机视觉技术领域。其包括以下步骤:获取待处理图像;待处理图像经过水印编码器进行不可见水印嵌入和可见水印嵌入,分别得到嵌入不可见水印的图像和嵌入可见水印的图像;嵌入不可见水印的图像经过噪声层进行处理,得到噪声图像;嵌入可见水印的图像经过噪声层进行处理,通过可见水印联合优化在嵌入随机噪声的图像位置产生明显的虚假警示标识;噪声图像经过水印解码器进行图像的溯源和检测,判断图像的真实性;进行损失函数监督训练。本发明方法能够精准的判断图像是否经过深度伪造以及验证图像来源的真实性。
-
公开(公告)号:CN119478794B
公开(公告)日:2025-04-29
申请号:CN202510051849.X
申请日:2025-01-14
Applicant: 天津理工大学 , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V20/40 , G06V10/80 , G06T17/00 , G06F18/213 , G06F18/25 , G06F16/783
Abstract: 本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下:首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接,再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息,随后根据与查询句子交互后的视频特征生成多个候选片段,通过分组候选片段交互模块学习候选片段之间的关系,然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异,最后将所有候选片段特征与单个查询句子特征计算匹配分数,分数高的作为预测结果。本发明可以精准地对视频片段进行定位。
-
公开(公告)号:CN118897904B
公开(公告)日:2025-04-18
申请号:CN202411388060.5
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC: G06F16/732 , G06F16/75 , G06F40/30
Abstract: 本发明属于自然语言处理领域,提供了一种查询语句语义树生成编码方法及系统,获取给定的查询语句,根据查询语句的完备性,对其进行分类;对于其中的不完备的查询语句,利用过程补全大语言模型进行基于思维链引导的查询过程的补全;基于完备的查询语句或补全后的查询语句,通过成分分析树提取相邻词语之间的深入语义关联,通过依存语法树提取非相邻词语的长距离关联,融合依存语法树和成分分析树,形成最终的语义树。本发明对查询语句进行完备性分类,随后利用大型语言模型自动推断和完善查询语句,从而生成能够准确反映动作中间过程的语义树,实现关键语义内容的补充,可以支持在开放场景视频中进行精准的动作检索和定位。
-
公开(公告)号:CN119625792A
公开(公告)日:2025-03-14
申请号:CN202510151987.5
申请日:2025-02-12
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V40/10 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/0464
Abstract: 本发明涉及一种基于强化共性特征的换衣行人重识别方法及系统,属于计算机视觉技术领域。其包括以下步骤:获取待检索的行人图像数据集,并在数据集中确定原始图像和与原始图像相同身份标签的图像;数据集中图像经过衣服混合与匹配模块、人体身份增强流模块以及ResNet50模型进行特征提取,然后经过共性特征提取模块生成显著图,最后经过分类器得到分类结果;通过损失函数对前述过程进行迭代优化,得到训练好的ResNet50模型;将待检测图像输入到训练好的模型中,得到检索特征;将检索特征与检索库中的行人图像特征进行相似度匹配,得到行人重识别结果。本发明能够提取适应换衣场景下的更有鲁棒性和判别性的特征。
-
公开(公告)号:CN119444578A
公开(公告)日:2025-02-14
申请号:CN202510024781.6
申请日:2025-01-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京天瞳未来数字科技有限公司
IPC: G06T3/4053 , G06T3/4046 , G06N3/0455 , G06N3/08
Abstract: 本发明属于图像超分辨率重建领域,为解决目前超分辨率重建效果差的问题,提供基于混合专家和稳定扩散的图像超分辨率重建方法及系统。基于混合专家和稳定扩散的图像超分辨率重建方法包括得到多尺度控制条件及空间控制条件;生成加噪特征隐层空间表示;经过多个采样时间步,不断从去噪主干网络的当前采样时间步的输入中减去当前时间步的去噪主干网络预测的噪声,然后将去噪结果作为下一个时间步去噪主干网络的输入,多个采样时间步完成后,得到重建图像的隐层空间表达;将重建图像的隐层空间表达解码至图像像素空间,得到图像超分辨率重建结果,提高了真实清晰的超分辨率重建效果。
-
-
-
-
-
-
-
-
-