-
公开(公告)号:CN118941774A
公开(公告)日:2024-11-12
申请号:CN202411010785.0
申请日:2024-07-26
Applicant: 南京邮电大学
IPC: G06V10/25 , G06V10/764 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0499 , G06N3/042 , G06N3/096
Abstract: 本发明公开了基于类别特征和公共特征解耦的持续目标检测方法及系统,涉及持续目标检测技术领域,包括:将旧类别实例输入至预先建立的旧模型内,输出各区域上的置信度,根据各区域上的置信度计算信息熵,选取小的信息熵旧类别实例输入至存储器内;存储器选取存储的与新类别实例外观相似的旧类别实例,将旧类别实例粘贴至包含新类别实例的图片内;基于预先建立的旧模型和迭代更新中的新模型在旧类实例的各个区域上的置信度,将所有区域划分为含有类别特征的区域和含有公共特征的区域,计算生成新旧模型在类别特征区域上的置信度一致性损失和生成反转交叉熵损失;利用模型总损失更新得到更新后的新模型,利用更新后的新模型进行持续目标检测。
-
公开(公告)号:CN115393773A
公开(公告)日:2022-11-25
申请号:CN202211096181.3
申请日:2022-09-08
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。
-
公开(公告)号:CN115393692A
公开(公告)日:2022-11-25
申请号:CN202211095848.8
申请日:2022-09-08
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于生成式预训练语言模型的联想文本到图像生成方法,包括:基于数据集对生成式预训练模型进行微调,让预训练模型获得语义保留度好已有文本信息,得到微调后的预训练模型;将原始数据集中每张图像对应的十个句子作为微调后的预训练模型的输入,得到模型输出的生成数据集;对生成数据集进行约束处理和语义保留度评估选择,得到联想文本数据集;基于所述联想文本数据集,利用基于DF‑GAN的对抗生成网络模型,生成在文本图像跨模态语义特征上一致的图像。本发明综合利用生成式预训练模型的联想能力和丰富的语义信息,一定程度上平衡了了对抗生成网络在文本到图像跨模态生成任务上文本信息和图像信息不均衡的问题。
-
公开(公告)号:CN119672611A
公开(公告)日:2025-03-21
申请号:CN202411846632.X
申请日:2024-12-16
Applicant: 南京邮电大学
IPC: G06V20/40 , G06V10/25 , G06V10/764 , G06F18/22 , G06N3/0455 , G06N3/047 , G06N3/048 , G06F40/20
Abstract: 本发明公开了基于情境记忆提示的跨模态视频时序内容定位方法及系统,涉及跨模态理解技术领域,通过阶段一动态产生一组情境记忆,显式总结输入视频中发生的多种行为实例;通过施加判别性和多样性约束来制定无监督记忆学习范式,消除对额外行为实例标注的依赖。其次,阶段二中基于帧级别细节内容补充和语言查询交互获取增强的记忆提示,并进一步作为锚框,实现对目标时刻片段边界的精准高效回归。与传统的基于滑动窗口或基于多尺度锚框的策略相比,本发明提出的跨模态视频时序内容定位方法更加符合认知习惯,在处理长视频时具备性能和效率优势。
-
公开(公告)号:CN118967911A
公开(公告)日:2024-11-15
申请号:CN202410981800.X
申请日:2024-07-22
Applicant: 南京邮电大学
IPC: G06T15/20 , G06T15/04 , G06N3/0455 , G06N3/0464
Abstract: 本发明提出了一种基于三维多方向对极平面图像的稠密光场重建方法,所述方法对稀疏四维光场进行切片得到低分辨的对极平面图,利用其对极特征,构建多参考视角聚焦栈图像;以多参考视角聚焦栈图像为输入构建三维U型神经网络生成三维多方向对极平面图像,最终合成高分辨率对极平面图,从而实现稠密光场重建。本发明的方法能同时实现光场内部和外边视点重建,且在低信噪比、鲁棒性高、在遮挡复杂的场景下,均能取得较好的重建结果。
-
公开(公告)号:CN118379502A
公开(公告)日:2024-07-23
申请号:CN202410815453.3
申请日:2024-06-24
Applicant: 南京邮电大学
IPC: G06V10/26 , G06V10/774 , G06V10/74 , G06V10/764 , G06V10/82 , G06F17/16
Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。
-
公开(公告)号:CN116306780B
公开(公告)日:2023-08-15
申请号:CN202310525595.1
申请日:2023-05-11
Applicant: 南京邮电大学
IPC: G06N3/042 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/048 , G06N3/094 , G06F18/214 , G06F18/243 , G06F123/02
Abstract: 本发明公开了一种动态图链接生成方法,所述方法包括:获取不同时刻的快照图;将所述不同时刻的快照图,输入至预设的生成对抗图胶囊网络模型中,得到下一时刻快照图之间的链接;其中,所述生成对抗图胶囊网络模型基于生成对抗网络进行双重训练得到的,所述生成对抗图胶囊网络模型采用样本集进行训练,所述样本集是基于每个动态离散快照图对应生成的拓扑结构得到的;所述生成对抗网络包括生成器和鉴别器,所述鉴别器用于对真实数据和生成的数据进行鉴别判断;所述生成器用于生成下一时刻快照图的拓扑结构。
-
公开(公告)号:CN115659019A
公开(公告)日:2023-01-31
申请号:CN202211300286.6
申请日:2022-10-21
Applicant: 南京邮电大学
IPC: G06F16/9535 , G06Q30/06 , G06Q30/02 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于轻量级图神经网络的协同过滤推荐方法。该方法包括以下步骤:采集用户与项目的历史交互数据,建立包含用户标识符和项目标识符的历史交互数据库;构建一种协同过滤推荐模型,该模型包括用户特征编码器、项目特征编码器和轻量级图神经网络;使用历史交互数据库中的交互数据对所述的协同过滤推荐模型进行训练;利用训练好的模型为用户推荐可能感兴趣的项目。本发明构建的协同过滤推荐模型中的轻量级图神经网络不包含任何需要训练的参数,而且本发明提出将置信度标签引入到损失函数的方法,优化了模型的训练,在保证推荐精度的前提下简化了模型、缩短了训练时间。
-
公开(公告)号:CN119647549A
公开(公告)日:2025-03-18
申请号:CN202510170889.6
申请日:2025-02-17
Applicant: 南京邮电大学
Abstract: 本发明公开了基于多模态域相关提示的无监督域适应方法及装置,涉及无监督域适应技术领域,包括以下步骤:接收预先建立的域相关文本提示,将域相关文本提示输入至预先建立的线性映射网络模型内,输出得到域相关的视觉提示,其中,所述域相关的视觉提示被引入层特定的视觉提示;组合图像和域相关的视觉提示输入至视觉编码器得到视觉特征,接收多层级域特征,将视觉特征和多层级域特征输入至基于注意力的特征增强网络模型内,输出得到域增强后的视觉特征;将域增强后的视觉特征与经过文本编码器编码后的域相关文本提示进行对齐训练,从而实现域相关的多模态联合对齐。
-
公开(公告)号:CN119398174A
公开(公告)日:2025-02-07
申请号:CN202411533851.2
申请日:2024-10-31
Applicant: 南京邮电大学
IPC: G06N5/04 , G06V10/44 , G06F18/213 , G06F18/25
Abstract: 本发明公开了一种基于答案引导的视觉常识推理去偏方法及系统,涉及视觉常识推理技术领域,包括以下步骤:获取图片与原始文本,将图片与原始文本进行配对,得到负样本,提取负样本内图片和问题以及答案文本;将图片和问题输入至预先建立的图片编码器内,输出得到图片编码特征,将答案文本输入至预先建立的文本编码器内,输出得到文本编码特征,将图片编码特征和文本编码特征通过单模态特征处理以及模态间特征融合,得到多模态特征;接收视觉常识推理数据集,抽取视觉常识推理数据集内的正确候选答案,生成去偏特征样本集,提取去偏特征样本集内特征,作为答案特征;将多模态特征与答案特征经过注意力机制,计算得到融合特征,基于融合特征计算得出候选答案的概率,将候选答案的概率最高的候选答案作为预测答案。
-
-
-
-
-
-
-
-
-