-
公开(公告)号:CN118762037A
公开(公告)日:2024-10-11
申请号:CN202411216338.0
申请日:2024-09-02
Applicant: 江南大学
Abstract: 本发明涉及图像语义分割技术领域,尤其是指一种基于邻域与形变注意力协同作用的食品分割方法及装置,包括:构建食品分割模型,所述食品分割模型包括依次连接的编码器、多尺度处理器、解码器和分割器;所述编码器包括多个阶段,每个阶段包括下采样模块、多个由邻域模块和膨胀邻域模块组成的串联结构;所述多尺度处理器包括依次连接的维度一致模块、若干个多尺度可形变模块和维度恢复模块;将原始食品图像输入食品分割模型,输出目标食品分割图像。本发明使用邻域注意力和多尺度形变注意力协同作用的特征提取方式,提供了更加精细的食材决策边界,实现对食物边界和形状更有效处理。
-
公开(公告)号:CN118277525A
公开(公告)日:2024-07-02
申请号:CN202410376260.2
申请日:2024-03-29
Applicant: 江南大学
IPC: G06F16/332 , G06F16/33 , G06F16/732 , G06F16/783 , G06F40/289 , G06F40/30
Abstract: 本发明涉及一种基于相对相似度的文本视频检索模型训练方法,包括构建语料库的高频元素集合,获取每个视频数据的关键词集合,以便生成每个视频数据的语义标签特征,来计算任意两个视频数据的相对相似度,构建相对相似度矩阵;获取所有视频数据的帧级特征、时序帧级特征与视频级特征;获取每个文本描述的词级特征与句级特征;通过对不同的特征进行不同粒度的交互,获取细粒度相似度矩阵、视频粗粒度相似度矩阵与文本粗粒度相似度矩阵后,构建模态间损失函数、模态内视频对齐损失函数与模态内文本对齐损失函数,组成总损失函数;最小化总损失函数,获取训练好的视频编码器与训练好的文本编码器,构建视频文本检索模型。
-