-
公开(公告)号:CN118799876A
公开(公告)日:2024-10-18
申请号:CN202410771714.6
申请日:2024-06-15
Applicant: 哈尔滨工业大学
IPC: G06V30/148 , G06V30/19 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于多基础大模型的开放词表分割方法,所述方法包括如下步骤:步骤一、建立CLIP和SAM图像特征上的两种交互方式后在全景分割训练集样本上进行训练,得到开放词表分割模型;步骤二、测试阶段采用SAM均匀采样点提示生成的掩码预测对最后的开放词表分割结果进行修正。本发明使用CLIP作为图像编码的主要网络,使用SAM作为辅助模型提供细粒度特征理解能力,通过基础模型特征之间的交互增加开放词表分割模型对生成掩码提案的泛化性,以使预训练的基础模型应用到下游细粒度语义理解和识别任务。本发明将SAM的特征注入Transformer解码器内部和CLIP的特征进行交互和学习,使得掩码查询的结果更加精确。
-
公开(公告)号:CN115410110A
公开(公告)日:2022-11-29
申请号:CN202210480001.5
申请日:2022-05-05
Applicant: 哈尔滨工业大学 , 太极计算机股份有限公司
Abstract: 一种基于卷积神经网络的场景识别方法,涉及场景识别技术领域,针对现有技术中识别游行和暴恐准确率低的问题,包括:步骤一:获取待识别图像,并对待识别图像进行预处理,将待识别图像进行归一化;步骤二:将预处理后的图像进行特征提取,得到游行活动和暴恐活动的特征;步骤三:将提取到的特征输入ResNet50网络,得到游行活动和暴恐活动的概率值;步骤四:分别设置游行活动的阈值和暴恐活动的阈值,并通过判断游行活动和暴恐活动的概率值是否超过阈值,进而识别是否发生游行活动和暴恐活动。本申请利用卷积神经网络强大的特征提取能力,显著的提高了识别的准确率。
-