-
公开(公告)号:CN118981549B
公开(公告)日:2025-01-03
申请号:CN202411226525.7
申请日:2024-09-03
Applicant: 江南大学
IPC: G06F16/583 , G06N3/042 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/096 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82
Abstract: 本发明属于跨模态检索技术领域,涉及一种基于类代理蒸馏的零样本草图图像检索方法;获取草图样本及对应的图片样本;利用预训练好的教师模型提取草图样本的第一语义特征向量和第一视觉特征向量、图片样本的第二语义特征向量和第二视觉特征向量;将第一语义特征向量和第二视觉特征向量融合得到目标第一融合特征向量,将第二语义特征向量和第一视觉特征向量融合得到目标第二融合特征向量;将草图样本和图片样本输入学生模型,输出草图特征向量和图片特征向量;构建损失函数并对学生模型进行迭代训练,直到损失函数的值最小,得到训练好的学生模型。通过融合语义特征和视觉特征,为草图和图片的匹配提供更丰富的特征信息,提高检索结果的精确度。
-
公开(公告)号:CN117609553B
公开(公告)日:2024-03-22
申请号:CN202410093675.9
申请日:2024-01-23
Applicant: 江南大学
IPC: G06F16/783 , G06F40/284 , G06F40/289 , G06N3/0442 , G06N3/045 , G06V10/44 , G06V10/80 , G06V10/82 , G06V20/40 , G06F16/732
Abstract: 本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。
-
公开(公告)号:CN118644850A
公开(公告)日:2024-09-13
申请号:CN202411093062.1
申请日:2024-08-09
Applicant: 江南大学
Abstract: 本发明涉及深度学习以及食品分析技术领域,具体指一种基于多尺度信息融合的食品营养评估方法,包括:分别提取食品RGB图像、深度图像的各个尺度的RGB图像特征、深度图像特征;设计多模态融合算法,融合每一尺度的RGB图像特征与深度图像特征,得到每一尺度的目标融合特征;设计基于双向特征金字塔的多尺度特征融合算法,增强每一尺度的目标融合特征,得到每一尺度的双向增强融合特征;基于各个尺度的双向增强融合特征,采用多任务学习,预测多种营养素。本发明引入深度图像特征来获取三维空间信息,提取图像特征,并通过多模态融合与双向特征金字塔融合算法,获得了语义信息与细节信息丰富的特征,可为营养评估提供了精确的结果。
-
公开(公告)号:CN119397057A
公开(公告)日:2025-02-07
申请号:CN202411990362.X
申请日:2024-12-31
Applicant: 江南大学
IPC: G06F16/783 , G06F16/75 , G06F16/732 , G06T9/00 , G06N3/0455 , G06N3/0895 , G06F16/738
Abstract: 本发明涉及文本视频检索技术领域,尤其是指一种基于大语言模型语义驱动的视频检索方法及系统,包括:获取查询文本和候选视频集合;构建文本视频检索模型;将候选视频集合输入文本视频检索模型,经过视频特征提取器得到每个候选视频的视频特征;将查询文本嵌入预设的提示语句后,与所有候选视频的视频特征输入至大语言模型,输出查询文本与每个候选视频的相似度;依据查询文本与每个候选视频的相似度输出视频检索结果。本发明构建包含动态变化和空间细节的视频特征,并利用大语言模型强大的语义推理能力获得跨模态语义关系,符合人类检索的认知行为,增强了模型的可解释性,提高了跨模态文本视频检索的精度和效率。
-
公开(公告)号:CN118762037B
公开(公告)日:2024-11-08
申请号:CN202411216338.0
申请日:2024-09-02
Applicant: 江南大学
Abstract: 本发明涉及图像语义分割技术领域,尤其是指一种基于邻域与形变注意力协同作用的食品分割方法及装置,包括:构建食品分割模型,所述食品分割模型包括依次连接的编码器、多尺度处理器、解码器和分割器;所述编码器包括多个阶段,每个阶段包括下采样模块、多个由邻域模块和膨胀邻域模块组成的串联结构;所述多尺度处理器包括依次连接的维度一致模块、若干个多尺度可形变模块和维度恢复模块;将原始食品图像输入食品分割模型,输出目标食品分割图像。本发明使用邻域注意力和多尺度形变注意力协同作用的特征提取方式,提供了更加精细的食材决策边界,实现对食物边界和形状更有效处理。
-
公开(公告)号:CN119495094B
公开(公告)日:2025-04-11
申请号:CN202510084829.2
申请日:2025-01-20
Applicant: 江南大学
Abstract: 本发明涉及食品分析技术领域,提供了一种基于自适应融合与特征增强的食品营养评估方法,包括:对待评估的目标对象的目标图像进行多尺度特征提取,获取目标图像的多尺度特征,目标图像包括RGB图像和深度图像;根据多尺度特征中目标尺度特征与尺度大于目标尺度特征的尺度特征,确定目标尺度特征对应的细节增强特征,目标尺度特征为多尺度特征中任意尺度的特征;将不同目标图像的细节增强特征进行特征融合,得到多尺度的融合特征;根据目标尺度的融合特征与小一尺度的融合特征,确定目标尺度的融合特征对应的语义增强特征;根据语义增强特征确定映射的营养素的数值。以解决相关技术中的基于图像进行食品营养评估的方法准确率较低的问题。
-
公开(公告)号:CN117609553A
公开(公告)日:2024-02-27
申请号:CN202410093675.9
申请日:2024-01-23
Applicant: 江南大学
IPC: G06F16/783 , G06F40/284 , G06F40/289 , G06N3/0442 , G06N3/045 , G06V10/44 , G06V10/80 , G06V10/82 , G06V20/40 , G06F16/732
Abstract: 本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。
-
公开(公告)号:CN119495094A
公开(公告)日:2025-02-21
申请号:CN202510084829.2
申请日:2025-01-20
Applicant: 江南大学
Abstract: 本发明涉及食品分析技术领域,提供了一种基于自适应融合与特征增强的食品营养评估方法,包括:对待评估的目标对象的目标图像进行多尺度特征提取,获取目标图像的多尺度特征,目标图像包括RGB图像和深度图像;根据多尺度特征中目标尺度特征与尺度大于目标尺度特征的尺度特征,确定目标尺度特征对应的细节增强特征,目标尺度特征为多尺度特征中任意尺度的特征;将不同目标图像的细节增强特征进行特征融合,得到多尺度的融合特征;根据目标尺度的融合特征与小一尺度的融合特征,确定目标尺度的融合特征对应的语义增强特征;根据语义增强特征确定映射的营养素的数值。以解决相关技术中的基于图像进行食品营养评估的方法准确率较低的问题。
-
公开(公告)号:CN118981549A
公开(公告)日:2024-11-19
申请号:CN202411226525.7
申请日:2024-09-03
Applicant: 江南大学
IPC: G06F16/583 , G06N3/042 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/096 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82
Abstract: 本发明属于跨模态检索技术领域,涉及一种基于类代理蒸馏的零样本草图图像检索方法;获取草图样本及对应的图片样本;利用预训练好的教师模型提取草图样本的第一语义特征向量和第一视觉特征向量、图片样本的第二语义特征向量和第二视觉特征向量;将第一语义特征向量和第二视觉特征向量融合得到目标第一融合特征向量,将第二语义特征向量和第一视觉特征向量融合得到目标第二融合特征向量;将草图样本和图片样本输入学生模型,输出草图特征向量和图片特征向量;构建损失函数并对学生模型进行迭代训练,直到损失函数的值最小,得到训练好的学生模型。通过融合语义特征和视觉特征,为草图和图片的匹配提供更丰富的特征信息,提高检索结果的精确度。
-
公开(公告)号:CN118644850B
公开(公告)日:2024-11-08
申请号:CN202411093062.1
申请日:2024-08-09
Applicant: 江南大学
Abstract: 本发明涉及深度学习以及食品分析技术领域,具体指一种基于多尺度信息融合的食品营养评估方法,包括:分别提取食品RGB图像、深度图像的各个尺度的RGB图像特征、深度图像特征;设计多模态融合算法,融合每一尺度的RGB图像特征与深度图像特征,得到每一尺度的目标融合特征;设计基于双向特征金字塔的多尺度特征融合算法,增强每一尺度的目标融合特征,得到每一尺度的双向增强融合特征;基于各个尺度的双向增强融合特征,采用多任务学习,预测多种营养素。本发明引入深度图像特征来获取三维空间信息,提取图像特征,并通过多模态融合与双向特征金字塔融合算法,获得了语义信息与细节信息丰富的特征,可为营养评估提供了精确的结果。
-
-
-
-
-
-
-
-
-