-
公开(公告)号:CN103927394B
公开(公告)日:2017-06-16
申请号:CN201410184086.8
申请日:2014-05-04
Applicant: 苏州大学
Abstract: 本申请公开了一种基于SVM的多标签主动学习分类方法及系统,所述方法包括:构建候选样本集;确定所述候选样本集内各样本所属的标签集;响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;将所述标注的样本加入训练样本集进行训练,更新分类器;利用所述分类器对获取的待分类样本进行分类。所述基于SVM的多标签主动学习分类方法,通过初步确定样本所属的标签集,从而在很大程度上节约了人力成本以及人工标注的时间,从而在节省人力的基础上,还解决了多标签样本的学习分类问题。
-
公开(公告)号:CN103617435B
公开(公告)日:2017-01-25
申请号:CN201310688907.7
申请日:2013-12-16
Applicant: 苏州大学
IPC: G06K9/66
Abstract: 本发明公开一种主动学习图像分类方法和系统,该方法针对原始的未标注图像样本集,首先仅考虑各样本的不确定性,从原始未标注图像样本集中获取不确定性较高的各图像样本,构成最不确定图像样本集;之后,衡量最不确定图像样本集中各样本的代表性,从中获取代表性较高的各样本,组成最具代表性图像样本集;后续对选取的不确定性和代表性较高的样本进行标注、分类器训练,以及利用训练的分类器对目标图像进行分类。可见,本发明采用分层次衡量的方式,首先基于不确定性缩减、筛选样本,之后对不确定性较高的缩减了样本规模的最不确定图像样本集进行代表性衡量,在保证了样本的不确定性和代表性的同时,降低了采样处理时间和工作量,提高了处理效率。
-
公开(公告)号:CN103559420B
公开(公告)日:2016-09-28
申请号:CN201310589362.4
申请日:2013-11-20
Applicant: 苏州大学
IPC: G06F19/00
Abstract: 本申请公开了一种异常检测训练集构建方法及装置,该方法将获取到的样本数据集合确定为当前数据集合,依据接收到的各个当前标注指令,在当前数据集合中获取已标注数据,将已标注数据加入第一数据集合,将未标注数据组成第二数据集合,判断异常点数据的个数是否达到预设数值,若是,依据已标记数据和未标记数据生成训练集,若否,依据第一数据集合计算未标注数据的异常点概率,依据异常点概率对所述未标注数据进行排序,并确定为当前数据集合,返回执行获取各个当前标注指令。与现有技术单次计算异常点概率相比,本方法利用已标注数据对未标注数据重新计算异常点概率,依据异常点概率排序后异常点排序前移,可减少标注次数,提高训练集构建效率。
-
公开(公告)号:CN103559420A
公开(公告)日:2014-02-05
申请号:CN201310589362.4
申请日:2013-11-20
Applicant: 苏州大学
IPC: G06F19/00
Abstract: 本申请公开了一种异常检测训练集构建方法及装置,该方法将获取到的样本数据集合确定为当前数据集合,依据接收到的各个当前标注指令,在当前数据集合中获取已标注数据,将已标注数据加入第一数据集合,将未标注数据组成第二数据集合,判断异常点数据的个数是否达到预设数值,若是,依据已标记数据和未标记数据生成训练集,若否,依据第一数据集合计算未标注数据的异常点概率,依据异常点概率对所述未标注数据进行排序,并确定为当前数据集合,返回执行获取各个当前标注指令。与现有技术单次计算异常点概率相比,本方法利用已标注数据对未标注数据重新计算异常点概率,依据异常点概率排序后异常点排序前移,可减少标注次数,提高训练集构建效率。
-
公开(公告)号:CN103257981A
公开(公告)日:2013-08-21
申请号:CN201210191981.3
申请日:2012-06-12
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于查询接口属性特征的DeepWeb数据表面化方法,包括查询接口模式信息抽取;清洗查询无关的属性;清洗垃圾属性值;属性分类;组装查询;查询集合;判断是否达到一定覆盖度;若是,则该方法流程结束;若不是,判断查询集合是否为空;若是,则将数据经领域样本库提交到样本库中;若不是,则将数据经数据爬取模块和数据记录抽取模块提交到样本库中。本发明基于查询接口属性特征的数据表面化方法可以取得较高的数据表面化效率,并能够有效解决查询接口中Top-k的问题。
-
公开(公告)号:CN103927394A
公开(公告)日:2014-07-16
申请号:CN201410184086.8
申请日:2014-05-04
Applicant: 苏州大学
CPC classification number: G06N99/005 , G06K9/6269
Abstract: 本申请公开了一种基于SVM的多标签主动学习分类方法及系统,所述方法包括:构建候选样本集;确定所述候选样本集内各样本所属的标签集;响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;将所述标注的样本加入训练样本集进行训练,更新分类器;利用所述分类器对获取的待分类样本进行分类。所述基于SVM的多标签主动学习分类方法,通过初步确定样本所属的标签集,从而在很大程度上节约了人力成本以及人工标注的时间,从而在节省人力的基础上,还解决了多标签样本的学习分类问题。
-
公开(公告)号:CN103699678A
公开(公告)日:2014-04-02
申请号:CN201310752850.2
申请日:2013-12-31
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开一种基于多阶段分层采样的层次聚类方法和系统,该方法包括:将随机采样得到的初始样本集作为种子构建分层查询策略,并基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数;利用分层查询策略对数据源进行分层采样,得到样本代表性较高的代表性样本集;对代表性样本集中的样本进行聚类,基于聚类所得簇的边界点对数据源进行二次采样,得到样本不确定性较高不确定性样本集;基于由初始样本集、代表性样本集及不确定性样本集构成的合集进行聚类,以估计数据源的聚类中心。可见,本发明通过多阶段分层采样保证了样本具有较高的代表性、不确定性,规避了随机采样样本代表性较差的问题,进而提高了数据源聚类的准确度。
-
公开(公告)号:CN103617435A
公开(公告)日:2014-03-05
申请号:CN201310688907.7
申请日:2013-12-16
Applicant: 苏州大学
IPC: G06K9/66
Abstract: 本发明公开一种主动学习图像分类方法和系统,该方法针对原始的未标注图像样本集,首先仅考虑各样本的不确定性,从原始未标注图像样本集中获取不确定性较高的各图像样本,构成最不确定图像样本集;之后,衡量最不确定图像样本集中各样本的代表性,从中获取代表性较高的各样本,组成最具代表性图像样本集;后续对选取的不确定性和代表性较高的样本进行标注、分类器训练,以及利用训练的分类器对目标图像进行分类。可见,本发明采用分层次衡量的方式,首先基于不确定性缩减、筛选样本,之后对不确定性较高的缩减了样本规模的最不确定图像样本集进行代表性衡量,在保证了样本的不确定性和代表性的同时,降低了采样处理时间和工作量,提高了处理效率。
-
公开(公告)号:CN103257982A
公开(公告)日:2013-08-21
申请号:CN201210193897.5
申请日:2012-06-13
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于关注关系的Blog搜索结果排序算法,包括以下步骤:1)博主关注因素的分析;2)博主关注关系网络的建立;3)博主影响力的确定;4)博文内容价值的衡量;5)博文的静态得分;6)博文的搜索排序算法。本发明是从Blog间已经存在的关注关系出发,很好的解决了链接稀疏的问题。同时避免过多主观因素的引入,通过全面考虑排序所涉及到的各种因素来对搜索结果排序,从而返回给用户质量更高的结果。
-
公开(公告)号:CN103257983B
公开(公告)日:2016-06-15
申请号:CN201210330860.2
申请日:2012-09-10
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明在于公开了一种基于唯一性约束的Deep Web实体识别方法,方法包括两个主要步骤:首先从硬性约束角度出发,将问题归结为一个k部图聚类问题,提出了聚类算法;然后将其扩展到软性约束条件下,将实体识别问题归结为优化问题,并提出了匹配算法。本发明将记录连接和数据融合集成起来并以一种全局的方式应用它们,提出了在硬性约束下的k部图聚类问题,并将它扩展到软性约束的情况中;同时基于属性值的相似性和同一记录里属性之间的关联性做出全局性的决策,能够识别不正确的值并且将它们从一开始就和正确的值区分开来,从而获得更好的识别效果;且本发明方法对属性值进行聚类从而表现出更加细粒度的聚类效果。
-
-
-
-
-
-
-
-
-