-
公开(公告)号:CN111612062B
公开(公告)日:2023-11-24
申请号:CN202010428382.3
申请日:2020-05-20
IPC: G06F18/20 , G06F18/214 , G06F18/241 , G06N3/0895
Abstract: 本发明公开了一种用于构建图半监督学习模型的方法、计算机系统以及计算机可读存储介质。根据该方法,利用多个训练样本中的任意两个训练样本之间的距离,构建一个图结构,将所述图结构作为更新后的图结构;对于所述更新后的图结构,循环执行如下步骤:获得所述更新后的图结构中的一个子图结构;利用所述多个训练样本中的任意两个训练样本之间的距离,在指定的可选k值范围内,获得所述子图结构的最优k值;根据所述最优k值更新所述子图结构,从而获得再次更新后的图结构;响应于不需要获得所述再次更新后的图结构的一个子图结构,训练所述再次更新后的图结构对应的图半监督学习模型。
-
公开(公告)号:CN116229155A
公开(公告)日:2023-06-06
申请号:CN202310065765.2
申请日:2023-01-13
Applicant: 南京大学 , 上海高德威智能交通系统有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/776 , G06F17/13 , G06N3/084 , G06N3/0895
Abstract: 本发明公开一种降低长尾图像标注代价的图像分类模型复用方法和系统,主要用于图像的类别呈长尾分布时减少构建机器学习模型的标注代价。本发明主要的技术方案为:通过获取与目标任务相关的一组模型,复用上述模型并利用目标任务上的未标注图像,使得在长尾图像标注较少的情况下实现性能提升,其中未标注图像的使用环节结合了1)有标注图像对目标任务模型的性能评估;2)相关模型对复用模式的指导更新,具有易实现、高效的特点,在长尾图像标注不足时,取得了比既有半监督学习和模型复用技术更优秀的性能。
-
公开(公告)号:CN113095423A
公开(公告)日:2021-07-09
申请号:CN202110430304.1
申请日:2021-04-21
Applicant: 南京大学
Abstract: 本发明公开一种基于在线反绎学习的流式数据分类方法及其实现装置,通过将输入的无标记(或弱监督标记)流式数据放入当前学习器,从而获得对当前流式数据预测的伪标记;对预测得到的伪标记,通过利用知识库(和弱监督标记),执行反绎推理操作得到修改后的伪标记;最后,使用修改后的伪标记对学习器进行更新。上述过程随着流式数据到来不断执行。本发明一方面可以利用一阶逻辑表达的领域知识,使用在线反绎学习方法超越传统在线学习方法的性能;另一方面,可快速处理大量流式数据,能利用无标记或弱标记数据,并且还能处理数据中可能出现的新类别。
-
公开(公告)号:CN119131501A
公开(公告)日:2024-12-13
申请号:CN202411274275.4
申请日:2024-09-12
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82
Abstract: 本发明公开一种针对图像分类任务实现安全反绎学习的方法和装置,旨在解决现有反绎学习方法在图像分类任务中处理不准确知识时面临性能不安全的问题。获取图像分类目标数据集以及带噪知识库;获取少量干净无偏的验证数据并构建多个验证数据集;根据安全反绎学习算法在目标任务上同时训练得到机器学习模型和知识库参数;根据知识库参数对知识库做规则筛选和精化;计算模型在验证数据集上的预测性能和安全性;最终训练得到的模型确定为目标任务的机器学习模型;最终筛选得到的知识库确定为目标任务的知识库。
-
公开(公告)号:CN107122800A
公开(公告)日:2017-09-01
申请号:CN201710298619.9
申请日:2017-04-27
Applicant: 南京大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于预测结果筛选的鲁棒机器学习方法,用于获得更可靠的数字图像标注结果。具体而言,本发明采用机器学习中的经典思想——最大化间隔原理,对待标注的数字图像在多种相似度度量下得到的预测结果进行筛选,选取其中间隔最大的结果作为最终预测结果输出,完成对数字图像的标注。预测结果具有大间隔理论上避免了预测结果难以区分的情况,具有不错的鲁棒性。为了显示地计算间隔,本发明采用机器学习经典损失函数来衡量预测结果的区分程度,从而得到间隔的大小。其中,损失函数指预测结果(连续值)与候选的预测标记(离散值)之间的差距,该损失越小代表了预测结果的间隔越大。
-
公开(公告)号:CN119625088A
公开(公告)日:2025-03-14
申请号:CN202411675479.9
申请日:2024-11-21
Applicant: 南京大学
IPC: G06T9/00 , G06V10/764 , G06V10/82 , G06N3/082
Abstract: 本发明公开一种面向分布外场景图像识别的稳健模型压缩方法,一方面使用训练数据微调模型参数,继承分布内样本表征能力,另一方面结合避免过拟合方法,使用稀疏优化筛选参数保证对分布外样本的泛化能力,技术易实现、通用性较强。主要步骤包括:预剪枝阶段在特征处理部分和最终分类层前加入Dropout,并引入L1正则项调整原模型结构,增强稀疏性的同时避免后续剪枝造成过拟合;剪枝阶段屏蔽Dropout层,使用泰勒展开式评估所有参数在置零前后对模型损失的影响大小作为重要性指标;基于评估结果和压缩比,去掉重要程度最低的参数;最后通过微调恢复模型性能。评估参数和微调同时进行,不断根据当前参数做出评估,以适应参数调整带来的重要性变化。
-
公开(公告)号:CN111612062A
公开(公告)日:2020-09-01
申请号:CN202010428382.3
申请日:2020-05-20
IPC: G06K9/62
Abstract: 本发明公开了一种用于构建图半监督学习模型的方法、计算机系统以及计算机可读存储介质。根据该方法,利用多个训练样本中的任意两个训练样本之间的距离,构建一个图结构,将所述图结构作为更新后的图结构;对于所述更新后的图结构,循环执行如下步骤:获得所述更新后的图结构中的一个子图结构;利用所述多个训练样本中的任意两个训练样本之间的距离,在指定的可选k值范围内,获得所述子图结构的最优k值;根据所述最优k值更新所述子图结构,从而获得再次更新后的图结构;响应于不需要获得所述再次更新后的图结构的一个子图结构,训练所述再次更新后的图结构对应的图半监督学习模型。
-
-
公开(公告)号:CN110245723B
公开(公告)日:2023-06-09
申请号:CN201910565453.1
申请日:2019-06-27
Applicant: 南京大学
IPC: G06V10/774 , G06V10/764
Abstract: 本发明公开了一种安全可靠的图像分类半监督机器学习方法及装置,方法包括:获取目标图像数据集;构建少量的验证图像数据集;对目标数据集中的未标记数据进行赋值并根据机器学习算法在目标数据集上训练得到机器学习模型;计算模型在验证数据集上的预测性能和安全性;更新未标记数据的赋值策略使得训练得到的模型在验证数据集上的预测性能和安全性不断调优,直到收敛。最终训练得到的模型确定为目标图像数据集的机器学习模型。本发明适用于图像分类任务中常见的“数据多但标记少”的数据分析情况。
-
公开(公告)号:CN115984818A
公开(公告)日:2023-04-18
申请号:CN202310041662.2
申请日:2023-01-13
Applicant: 南京大学 , 上海高德威智能交通系统有限公司
Abstract: 本发明公开一种面向边角类别图像的稳健检测方法,用于提升机器学习算法在测试阶段检测边角类别(Corner Class)图像的能力,一方面防止了模型边角类别图像的错误预测,另一方面降低了边角类别图像的人工标注成本。本发明主要的技术方案包括从目标数据集中提取图像间内蕴的分类判别信息,结合有限的标注图像,建立能够稳健检测未见边角类别图像的机器学习模型。其中,提取上述判别信息结合1)自监督学习技术构建初始特征表示;2)进一步提取图像间内蕴的相似性结构。本发明具有图像标注量需求低、算法实现简单等特点,稳健提升了机器学习模型付诸于边角类别图像的检测能力。
-
-
-
-
-
-
-
-
-