-
公开(公告)号:CN111325099A
公开(公告)日:2020-06-23
申请号:CN202010069598.5
申请日:2020-01-21
Applicant: 南京邮电大学
Abstract: 本发明公开一种基于双流时空图卷积神经网络的手语识别方法及系统,首先,将手语动作视频切分为视频帧,提取手语动作视频片段中人物上半身和手部骨架点,并构建全局和局部图数据;利用双流时空图卷网络分别提取全局和局部时空特征,经过特征拼接得到全局-局部特征;同时,将视频对应文本通过分词处理之后编码为词向量,并采用特征变换将二者映射到同一隐空间,利用动态时间规整算法进行模型训练;对全局-局部特征序列,采用自注意力机制编解码网络对其进行序列化建模,解码器的输出采用softmax分类器获得每个视频片段所对应的单词,并组成相应文本句子。本发明能提高生成文本句子的准确率,在字幕生成、人机交互等场景中具有重要的应用价值。
-
公开(公告)号:CN119904712A
公开(公告)日:2025-04-29
申请号:CN202411986265.3
申请日:2024-12-31
Applicant: 南京邮电大学
IPC: G06V10/774 , G06V10/74 , G06V10/778 , G06V10/44 , G06V20/62
Abstract: 本发明公开了基于布尔提示增强的零样本视觉问答方法及系统,涉及零样本视觉问答技术领域,包括:基于预训练视觉语言模型自适应判断输入问题的复杂程度,输出简单问题的答案,选择出对于模型复杂的问题;基于选择出的复杂问题,提取关键词,并生成问题对应图像的描述;基于原始问题生成捕捉全局信息的子问题,从问题关键词和图像描述生成包含局部信息的子问题;基于生成的子问题与原始问题之间的余弦相似度,构建子问题的冗余度值和丰富度值;利用冗余度值删除冗余度高的子问题,利用丰富度值确保子问题内容的丰富性,利用得到的子问题作为提示增强模型对复杂问题的理解以及对局部视觉信息的关注,提高零样本视觉问答的准确性。
-
公开(公告)号:CN119625328A
公开(公告)日:2025-03-14
申请号:CN202510170884.3
申请日:2025-02-17
Applicant: 南京邮电大学
IPC: G06V10/26 , G06V10/44 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于平衡多粒度融合特征蒸馏的持续语义分割方法及系统,涉及持续语义分割技术领域,包括:获取图片,将图片输入至预先建立的新旧模型的特征提取网络内,输出得到图片的多层特征;将图片的多层特征输入至预先建立的并行自注意力模块内,输出得到初步融合多粒度特征;将初步融合多粒度特征输入至预先建立的基于矩的通道注意力模块内,输出得到平衡性多粒度融合特征;基于知识蒸馏计算平衡性多粒度融合特征的一致性约束,基于平衡性多粒度融合特征的一致性约束计算训练总损失;基于训练总损失对新模型进行训练,得到训练后的新模型,通过训练后的新模型基于辅助分类器为新任务提供最优初始化决策边界,提高持续语义分割任务的准确性。
-
公开(公告)号:CN119166854A
公开(公告)日:2024-12-20
申请号:CN202411320169.5
申请日:2024-09-23
Applicant: 南京邮电大学
IPC: G06F16/783 , G06F18/25 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了面向复杂不完备数据场景的短视频谣言检测方法及系统,涉及数据挖掘技术领域,通过构建一种基于多模态一致性的共享特征抽取模块,让模型自适应地跳过缺失数据部分,并从可用的数据部分中总结视频内容的信息,从而帮助模型理解视频主题;通过构建一种基于跨模态不一致性的冲突检测模块,分析所有可用模态的语义表征,用于检查模态之间可能存在的矛盾与谬误,作为鉴别谣言的辅助依据;通过构建一种可迁移的自适应平衡训练机制,能够根据训练损失自动地调节每个视频模态的训练权重,防止可用模态的过拟合并缓解缺失模态的欠拟合,从而增强模型对于不同模态组合输入的鲁棒性并达到平衡训练的目的。
-
公开(公告)号:CN118379502B
公开(公告)日:2024-10-11
申请号:CN202410815453.3
申请日:2024-06-24
Applicant: 南京邮电大学
IPC: G06V10/26 , G06V10/774 , G06V10/74 , G06V10/764 , G06V10/82 , G06F17/16
Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。
-
公开(公告)号:CN118052895A
公开(公告)日:2024-05-17
申请号:CN202410169382.4
申请日:2024-02-06
Applicant: 南京邮电大学
IPC: G06T11/00 , G06V10/80 , G06V10/77 , G06V10/82 , G06V20/68 , G06V20/70 , G06N3/0475 , G06N3/045 , G06N3/094
Abstract: 本发明公开了图像生成技术领域的一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置,方法包括:获取经过筛选的菜谱数据集;通过预训练图文匹配模型CLIP对所述菜谱数据集进行编码,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征;将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签;将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像;将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性。本发明能够解决由于烹饪指令之间顺序关系的影响以至于最终食谱和生成的食物图像之间语义不一致的技术问题。
-
公开(公告)号:CN116456323A
公开(公告)日:2023-07-18
申请号:CN202310621756.7
申请日:2023-05-30
Applicant: 南京邮电大学
IPC: H04W8/18 , H04W4/50 , G06Q30/0601 , G06Q30/0282 , G06Q50/30 , G06F16/9535 , G06F16/9536 , G06N3/0442 , G06N3/045 , G06N3/048
Abstract: 本发明公开了一种基于用户偏好解耦的用户套餐推荐方法及系统,方法的步骤包括:采集用户的套餐订阅数据和满意度评分数据,建立用户套餐订阅数据集;构造三个嵌入表示来分别表征用户对于套餐中流量、语音和价格的偏好,并且从用户套餐订阅数据集中抽取特定数据来训练每个嵌入表示,使得每个嵌入表示只捕捉其中一种偏好;使用注意力机制自适应融合三个嵌入表示,得到用户总体偏好表征;基于用户总体偏好表征计算用户对于候选套餐的满意程度,并根据满意程度生成套餐推荐列表。本发明的方法将用户对于套餐中流量、语音和价格的偏好进行解耦,使得推荐结果更具可解释性,提升了个性化推荐服务的精准度。
-
公开(公告)号:CN116258989A
公开(公告)日:2023-06-13
申请号:CN202310038133.7
申请日:2023-01-10
Applicant: 南京邮电大学
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06V10/774 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了基于文本与视觉的时空关联型多模态情感识别方法、系统。首先将短视频样本裁剪成一定大小的图像块,使用卷积神经网络提取视觉特征,降维后输入到多层自注意力混合网络中,提取时空维度的深层视觉情感特征;随后用词向量模型将短视频中的文本对话转换为词向量序列,输入到自注意力神经网络中,提取深层文本情感特征;最后将视觉与文本深层情感特征进行拼接,添加全连接神经网络,利用分类器预测最终结果。本发明可以根据视频样本中图像在时间与空间维度的变化,高效地利用多头自注意力网络进行深层特征提取,尽可能地减少时间与空间特征融合过程中的信息损失,最后融合文本模态的情感特征,提高模态分类的准确率。
-
公开(公告)号:CN116150418A
公开(公告)日:2023-05-23
申请号:CN202310424288.4
申请日:2023-04-20
Applicant: 南京邮电大学
IPC: G06F16/532 , G06F16/583 , G06F16/332 , G06F16/33 , G06F16/383 , G06F18/25 , G06F18/22 , G06V10/46 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048
Abstract: 本发明公开了一种基于混合聚焦注意力机制的图文匹配方法及系统,方法包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度系数,从而区分有效和无效的区域特征;步骤S3.利用门控的自注意力机制实现对区域特征和单词特征的模态内融合,通过门控信号控制自注意力矩阵自适应地选择有效的区域特征和单词特征;步骤S4.利用跨模态和自模态的区域特征和单词特征计算整个图像和句子的匹配分数。本发明可以实现图文间互相检索。
-
公开(公告)号:CN115659277A
公开(公告)日:2023-01-31
申请号:CN202211299136.8
申请日:2022-10-21
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多行为特征融合的电商会话推荐方法及系统。该方法包括以下步骤:获取电商数据库中用户对商品的点击、收藏、购买、加入购物车四种会话行为数据;构建一种基于多行为特征融合的电商会话推荐模型,该模型包括行为特征提取模块、商品特征提取模块、商品高阶特征提取模块、会话特征提取模块和商品推荐模块;使用电商数据库中的四种会话行为数据对所述的电商会话推荐模型进行训练;利用训练好的电商会话推荐模型对会话中的用户进行商品推荐,输出推荐结果。本发明利用电商会话推荐模型融合会话中的多行为特征,能有效提升推荐性能。
-
-
-
-
-
-
-
-
-