一种基于多模态特征的视频实体关系及交互识别方法

    公开(公告)号:CN113936236A

    公开(公告)日:2022-01-14

    申请号:CN202111116334.1

    申请日:2021-09-23

    Applicant: 南京大学

    Abstract: 一种基于多模态特征的视频实体关系及交互识别方法,对影片中实体之间的交互进行预测识别:对影片根据场景划分为中片段,对中片段分别向上聚合为长片段,向下分割为短片段,对于每个中片段,将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征,取平均作为长片段的特征预测长片段中的实体关系,并将该平均特征连接到每一个中片段特征,用于预测对应的中片段中的实体之间的互动,实体关系和实体互动同时进行预测,并联合训练对应的识别网络。本发明将长视频分为三种长度的视频,对长片段预测实体关系,对中片段预测实体交互和场景状态,对短片段预测实体交互,构建出实体关系图和互动图。

    一种基于线激光的非接触式树木胸径测量装置

    公开(公告)号:CN111442734A

    公开(公告)日:2020-07-24

    申请号:CN202010436345.7

    申请日:2020-05-21

    Inventor: 任桐炜 王纬 王博

    Abstract: 一种基于线激光的非接触式树木胸径测量装置,包括:智能手机、激光发射设备和手持设备,激光发射设备设置在智能手机侧面,发射光线方向与智能手机摄像头朝向相同,激光设备向待测量树木发射光线,在树干上形成2个点激光和一水平激光线,其中2个点激光连线与水平光线垂直,水平光线垂直于待测量树木生长延伸方向;所述方法包括采集带有2个激光点和水平光线的待测量树木胸径图片,对该图片进行图像处理,找出图片中的2个激光点位置与图片中水平光线出树木胸径的宽度,进一步获取待测量树木胸径。本发明实施例中设备装置简单、便于携带,可提高树木胸径测量的速率。

    一种基于显著性融合与传播的显著物体检测方法

    公开(公告)号:CN106373162B

    公开(公告)日:2019-04-16

    申请号:CN201510435772.2

    申请日:2015-07-22

    Applicant: 南京大学

    Abstract: 一种基于显著性融合与传播的显著物体检测方法,针对RGB‑D图像,首先分别利用图像的颜色特征和空间特征进行显著物体检测,然后通过融合二者的结果得到一个高准确率的显著性图,最后通过一种基于块的显著性传播方法来扩大显著区域和提高显著物体的完整性。本发明充分发掘了RGB‑D图像的彩色通道和深度通道,利用颜色特征和空间特征进行显著性检测,并采用融合‑传播策略提高检测结果的准确率和召回率,能够应对在RGB‑D图像中检测显著物体的任务,并能够取得比现有方法更优秀的效果。

    一种基于自适应三阈值的显著物体分割方法

    公开(公告)号:CN106558050A

    公开(公告)日:2017-04-05

    申请号:CN201510615075.5

    申请日:2015-09-24

    Applicant: 南京大学

    CPC classification number: G06T2207/20004

    Abstract: 一种基于自适应三阈值的显著物体分割方法,首先利用区域对比度算法计算彩色图像中每个像素点的显著性值,生成同等大小的显著性图,然后统计获得显著性直方图,利用自适应三阈值法先找到一个阈值将显著性图初步分为两类使两类的类间差最大,再找到另外两阈值将显著性图细分为四类,并使得四类的类间差最大。根据获得的三阈值将显著性图的像素分为四类种子点,用这些种子点代替人工交互对GrabCut算法进行初始化获得分割结果。本发明提供了一种自动分割显著物体的方法,利用自适应三阈值从显著性图获得种子点,有效提高了显著物体分割的效果。

    基于提示调优的师生架构半监督学习小样本图像分类方法

    公开(公告)号:CN118608828A

    公开(公告)日:2024-09-06

    申请号:CN202410641021.5

    申请日:2024-05-22

    Applicant: 南京大学

    Abstract: 基于提示调优的师生架构半监督学习小样本图像分类方法,基于CLIP模型构建提示调优基础模型,根据调优基础模型配置共享结构和初始化参数的师生模型,由老师模型为无标签数据生成伪标签,对学生模型输入标签数据和伪标签数据对双模态提示参数进行提示调优训练,分别按不同权重计算标签数据和伪标签数据的损失函数并更新梯度,所述权重随训练变化,学生模型更新后更新老师模型的参数,更新后的老师模型再重新生成伪标签数据集进行训练,最后利用训练得到的老师模型实现图像样本的分类。本发明将半监督学习引入CLIP模型的提示调优方法中,通过增加伪标签数据辅助训练,改善了模型在可用训练样本极少的情况下的训练效果,具有较强的实用性。

    一种基于多模态特征融合的视频深度关系分析方法

    公开(公告)号:CN112183334B

    公开(公告)日:2024-03-22

    申请号:CN202011038812.7

    申请日:2020-09-28

    Applicant: 南京大学

    Abstract: 一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。

    一种结合区域合并与深度连通性的似物性估计方法

    公开(公告)号:CN109785328B

    公开(公告)日:2023-05-09

    申请号:CN201711112598.3

    申请日:2017-11-13

    Applicant: 南京大学

    Abstract: 一种结合区域合并和深度连通性的似物性估计方法,在RGB‑D图像上先结合颜色通道信息和深度连通性生成以权重值为表示的边缘轮廓图,接着在边缘轮廓图的基础上获得层次式分割块,然后将不同层次的分割块组合成假想物体,再采用区域生长方法将假想物体扩展成候选物体,最后依据颜色和深度特征对候选物体进行评分和排序,并以得分高的候选物体的边界框作为似物性估计结果。本发明综合利用了RGB‑D图像的颜色通道与深度通道,能够面对RGB‑D中似物性估计的任务,取得比现有方法更加准确和鲁棒的似物性估计效果。

    一种视频中的人-物交互关系检测方法及装置

    公开(公告)号:CN112464875A

    公开(公告)日:2021-03-09

    申请号:CN202011450346.3

    申请日:2020-12-09

    Applicant: 南京大学

    Abstract: 一种视频中的人‑物交互关系检测方法及装置,通过目标轨迹检测提取视频中主语和物体的时空轨迹,再由交互联合推理基于目标轨迹检测的结果识别人‑物交互关系HOI,交互联合推理从目标时空轨迹中提取多模特征,包括人和物体的融合语义特征、人体行为视觉描述特征和人‑物时空相对运动特征,使用多特征融合的方式进行联合推理,预测视频段上的人‑物交互动作,得到预测的交互类别标签,即人‑物交互关系。本发明提出了一种基于时空域的人‑物交互检测方法,通过从复杂的视频视觉场景中捕获场景的高级语义信息,成功发现、定位和分类视频中人‑物对及其之间的交互关系。

    一种基于兴趣传播网络的兴趣视觉关系检测方法及装置

    公开(公告)号:CN111985505A

    公开(公告)日:2020-11-24

    申请号:CN202010848981.0

    申请日:2020-08-21

    Applicant: 南京大学

    Abstract: 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置,从输入图像中提取物体,并两两组合为物体对,计算相应的物体特征和联合特征,生成物体和物体对的视觉特征、语义特征和位置特征,经线性变换得到物体和物体对的兴趣特征,由此预测物体对兴趣度,并将物体对关系谓语的视觉特征、语义特征和位置特征经线性变换得到关系谓语的兴趣特征,预测物体间的关系谓语兴趣度;最后将物体对兴趣度和关系谓语兴趣度相结合得到视觉关系兴趣度,兴趣度高的视觉关系即为最终检测出的兴趣视觉关系。本发明在检测视觉关系的过程中能够以语义重要性为标准更合理地预测关系兴趣度,找出能够准确传达图像主体内容的兴趣视觉关系,具有良好的广泛性与实用性。

    基于多级条件影响的卷积神经网络的细粒度动作检测方法

    公开(公告)号:CN111444889A

    公开(公告)日:2020-07-24

    申请号:CN202010362830.4

    申请日:2020-04-30

    Applicant: 南京大学

    Abstract: 基于多级条件影响的卷积神经网络的细粒度动作检测方法,建立一个多级条件影响的卷积神经网络,将视觉场景中附加的显性知识与多级视觉特征融合,所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干,生成多级视觉特征,同时将人体结构和物体语境信息的附加空间语义信息作为条件进行编码,通过仿射变换和注意机制动态影响CNN的特征提取,最后融合调制多模特征以区分各种交互动作;对多级条件影响的卷积神经网络进行模型训练,得到的模型输出细粒度动作检测结果。本发明在HICO-DET和V-COCO这两个最常用的基准上对所提出的方法进行评估,实验结果表明,本发明方法优于现有的方法。

Patent Agency Ranking