-
公开(公告)号:CN118377933A
公开(公告)日:2024-07-23
申请号:CN202410802106.7
申请日:2024-06-20
Applicant: 南京信息工程大学
IPC: G06F16/783 , G06V20/40 , G06V20/62 , G06V10/74 , G06V10/80
Abstract: 本发明提供了基于文本生成图像技术的文本视频检索优化方法,本发明利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。
-
公开(公告)号:CN117765464A
公开(公告)日:2024-03-26
申请号:CN202311775140.1
申请日:2023-12-22
Applicant: 南京信息工程大学
IPC: G06V20/52 , G06V10/774 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于字典学习中间域的无监督域适应行人重识别方法,包括:获取待识别行人图像和目标图像库;将所述待识别行人图像和目标图像库输入无监督域适应行人重识别模型;根据所述无监督域适应行人重识别模型的输出,得到行人重识别结果;其中所述行人重识别结果为从目标图像库中检索到的与待识别行人图像具有相同身份的行人图像;其中所述无监督域适应行人重识别模型采用改进的ResNet‑50网络,在ResNet‑50网络的第一残差模块和第二残差模块之间增加了一个字典学习中间域模块,所述字典学习中间域模块包括中间域注意力子模块和字典学习子模块;所述无监督域适应行人重识别模型使用有标签的源域数据集和无标签的目标域数据集共同训练优化得到。
-
公开(公告)号:CN109947960B
公开(公告)日:2024-01-23
申请号:CN201910173989.9
申请日:2019-03-08
Applicant: 南京信息工程大学
IPC: G06F16/51 , G06F16/583 , G06N3/0464
Abstract: 本发明公开了一种基于深度卷积的人脸多属性联合估计模型构建方法,包括根据将不同数据库的人脸图像进行必要的归一化之后同时输入进行特征提取;利用不同的颜色空间体现图片不同颜色通道特征,利用不同特征算法对同一张人脸进行底层手动特征刻画;对深度卷积网络近全连接层的若干卷积层的卷积核参数以及全连接层的输出向量进行2范数距离的最小化约束,并在全连接层的损失函数中引入全连接层的均值和方差。本发明采用混合数据集,实现样本标记空间的完善,通过不同特征刻画能力的互补减小不同通道全连接层之间的特征表达差异,增大相关性,增强模型的泛化能力。
-
公开(公告)号:CN113469273B
公开(公告)日:2023-12-05
申请号:CN202110816631.0
申请日:2021-07-20
Applicant: 南京信息工程大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明公开了基于双向生成及中间域对齐的无监督域适应图像分类方法,属于迁移学习领域。本发明通过采用双向生成网络,分别输入源域和目标域的图像将其生成对应伪目标域图像和伪源域图像,生成过程中由任务网络提供监督信息以指导图像生成质量,模型训练结束后,将伪源域图像与源域图像分别输入到分类网络中,通过相关距离度量,不断缩减伪源域与源域图像的分布差异,从而使得分类网络能够利用源域知识为目标域图像进行分类,相较于传统的域适应模型,本模型在提高模型泛化能力的同时,提高了模型的分类精度,既不会混淆域特有信息和域不变信息,从而导致负迁移的情况出现,又能够(56)对比文件Qing Tian 等.Unsupervised DomainAdaptation via bidirectional generationand middle domains alignment《.ELSEVIER》.2022,第102卷1-13.ANDREA ROSALES SANABRIA 等.Unsupervised Domain Adaptation inActivity Recognition: A GAN-BasedApproach《.IEEE Access》.2021,第9卷19421-19438.
-
公开(公告)号:CN116824216A
公开(公告)日:2023-09-29
申请号:CN202310576784.1
申请日:2023-05-22
Applicant: 南京信息工程大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/088 , G06N3/094
Abstract: 本发明公开了一种无源无监督域适应图像分类方法,使用源域图像及其标签训练一个源域预训练模型,并使用该预训练模型初始化一个目标模型;使用初始化的目标模型计算目标域图像的模型结构级别和数据结构级别的预测分数,将二者结合作为目标域样本的置信分数,并用于目标模型的交叉熵损失加权,引入信息最大化损失来辅助目标模型训练;将目标域样本的图像、伪标签、置信分数混合;计算双分类器的确定性差异距离用于目标模型的最大最小化训练;最后训练模型,计算相应损失并依次迭代更新优化相应的模型参数,从而明确地识别一些不确定分类的目标样本,再引入权重混合策略来充分利用目标域知识,进一步提高目标域分类准确率。
-
公开(公告)号:CN116746882A
公开(公告)日:2023-09-15
申请号:CN202310654675.7
申请日:2023-06-05
Applicant: 南京信息工程大学
IPC: A61B5/00 , A61B5/055 , G06V10/764 , G06V10/82 , G06V10/77 , G06V10/774 , G06V10/776 , G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/084 , G06N3/096
Abstract: 本发明公开了一种基于迁移学习的阿尔茨海默病分类方法,步骤如下:获取阿尔茨海默病被试的磁共振脑部数据并进行MRI图像预处理;改进ResNet网络,以完成对阿尔茨海默病的检测分类;使用改进后的ResNet网络进行迁移学习和测试。本发明使用迁移学习避免了手动设置初始模型参数或使用随机初始化所带来的模型性能的不稳定,并且为模型自动地选取了一个梯度下降中较好的起始点,提升了模型的性能;本发明将已有的ResNet模型进行改进,向模型中增加注意力机制,并将模型中每个残差块最后的激活函数替换为Meta‑Acon,提高了模型的性能;本发明使用2D的MRI图像的切片,使得模型的参数量可控并且取得较好的性能。
-
公开(公告)号:CN110503072B
公开(公告)日:2023-05-26
申请号:CN201910806822.1
申请日:2019-08-29
Applicant: 南京信息工程大学
IPC: G06V40/16 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于多支路CNN架构的人脸年龄估计方法,本专利通过设计多支路CNN架构将人脸属性(性别、肤色等)考虑进年龄估计任务中,以提高人脸年龄估计的准确率。首先基于经典CNN架构设计了一种用于识别黑种男性、黑种女性、白种男性、白种女性、黄种男性、黄种女性这六类的CNN模型;接着截取该模型前半部分架构及其参数作为共享层以加强人脸属性对年龄估计任务的影响程度;然后通过设计六条针对六类人脸属性的CNN支路将不同人脸属性的年龄估计分离;最后六条支路的输出结果通过公共融合层的融合算法进行融合,从而让神经网络分别学习到特定人种、性别的人脸图片特征,以提高年龄估计的准确率。
-
公开(公告)号:CN113469273A
公开(公告)日:2021-10-01
申请号:CN202110816631.0
申请日:2021-07-20
Applicant: 南京信息工程大学
IPC: G06K9/62
Abstract: 本发明公开了基于双向生成及中间域对齐的无监督域适应图像分类方法,属于迁移学习领域。本发明通过采用双向生成网络,分别输入源域和目标域的图像将其生成对应伪目标域图像和伪源域图像,生成过程中由任务网络提供监督信息以指导图像生成质量,模型训练结束后,将伪源域图像与源域图像分别输入到分类网络中,通过相关距离度量,不断缩减伪源域与源域图像的分布差异,从而使得分类网络能够利用源域知识为目标域图像进行分类,相较于传统的域适应模型,本模型在提高模型泛化能力的同时,提高了模型的分类精度,既不会混淆域特有信息和域不变信息,从而导致负迁移的情况出现,又能够使得生成的伪源域样本可以完全符合源域样本分布。
-
公开(公告)号:CN110503072A
公开(公告)日:2019-11-26
申请号:CN201910806822.1
申请日:2019-08-29
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于多支路CNN架构的人脸年龄估计方法,本专利通过设计多支路CNN架构将人脸属性(性别、肤色等)考虑进年龄估计任务中,以提高人脸年龄估计的准确率。首先基于经典CNN架构设计了一种用于识别黑种男性、黑种女性、白种男性、白种女性、黄种男性、黄种女性这六类的CNN模型;接着截取该模型前半部分架构及其参数作为共享层以加强人脸属性对年龄估计任务的影响程度;然后通过设计六条针对六类人脸属性的CNN支路将不同人脸属性的年龄估计分离;最后六条支路的输出结果通过公共融合层的融合算法进行融合,从而让神经网络分别学习到特定人种、性别的人脸图片特征,以提高年龄估计的准确率。
-
公开(公告)号:CN107545243A
公开(公告)日:2018-01-05
申请号:CN201710664796.4
申请日:2017-08-07
Applicant: 南京信息工程大学
Abstract: 本发明提供的基于深度卷积模型的黄种人脸识别方法,包括如下步骤:步骤1:采用深度卷积网络对从LFW数据库中采集的西方人脸图像进行预训练,建立人脸识别初始模型;步骤2:采用人脸识别初始模型对黄种人脸图像进行精训练,建立黄种人脸识别模型;步骤3:采用所述黄种人脸识别模型对一待识别的人脸图像进行识别。本发明大大提高了人脸识别器对亚洲黄种人脸识别能力。
-
-
-
-
-
-
-
-
-