-
公开(公告)号:CN108681433A
公开(公告)日:2018-10-19
申请号:CN201810419353.3
申请日:2018-05-04
Applicant: 南京信息工程大学
CPC classification number: G06F3/0641 , G06K9/6215 , G06K9/6256 , G06K9/6269
Abstract: 一种用于重复数据删除的抽样选择方法,该方法基于Sig‑Dedup框架,得到初始块阈值,进而从大规模数据集中过滤出可能的匹配对放入一个新的集合S,并按相似度递增排序,然后将该集合按相似度等级随机抽取出一定数量的信息对生成经验规模的样本。通过SSAR主动学习算法,对各等级的样本进一步去除不翔实或者冗余的信息对,生成更具代表性的训练集交由专家标记,然后用它确定模糊边界值,紧接着用模糊边界值和已标记集训练支持向量机分类器SVM,自动判定模糊区域内信息对是否匹配,从而减少了需要人工标记的信息对数量。本发明大大细化了抽样选择过程,减小需要手工标记的信息对数量,极大减小专家标记成本。