-
公开(公告)号:CN113837249A
公开(公告)日:2021-12-24
申请号:CN202111046552.2
申请日:2021-09-07
Applicant: 桂林理工大学
IPC: G06K9/62
Abstract: 本发明公开一种以邻域熵为查询策略的三支决策主动学习方法。该方法包括:使用已标记数据集训练分类器;再将训练后的分类器对测试集进行分类并记录其分类结果;计算所有未标记数据的邻域熵,并根据邻域熵值的大小将未标记数据分为正域、边界域和负域;分别对不同区域的数据进行处理;选择部分最有价值的未标记数据,再交由人类专家或注解器标记;标记后加入已标记数据集并用于分类器的下一次训练;循环迭代执行以上过程,直到达到预设条件或期望的评估标准停止学习。本发明可以选择少量最有价值的数据并进行标记,避免了选择冗余数据和对分类性能贡献不大的数据,同时能够减少对大量未标记数据进行标记所需的代价。
-
公开(公告)号:CN113837248A
公开(公告)日:2021-12-24
申请号:CN202111046551.8
申请日:2021-09-07
Applicant: 桂林理工大学
IPC: G06K9/62
Abstract: 本发明公开一种基于k近邻算法思想的近邻熵主动学习方法,融入了k近邻算法中“同类相聚,异类相离”的思想,包括:给定训练集和测试集,使用训练集训练分类器并利用这个分类器对测试集进行分类;遍历测试集,寻找与每一个未标记数据邻近的k个未标记数据;计算当前未标记数据及其邻近数据的熵值,以此得到该数据的近邻熵;由近邻熵值按从大到小的顺序对测试集排序,最后挑选出w个近邻熵值大的数据交给专家标记;更新训练集与测试集,利用更新后的训练集训练分类器;循环以上操作,直到满足停止条件。本发明可以使用尽量少的且信息量大的数据训练分类器,这样不仅避免挑选到既处于分类边界又是孤立点的数据,还减少了标记数据所需的代价。
-
公开(公告)号:CN112070173A
公开(公告)日:2020-12-11
申请号:CN202010954070.6
申请日:2020-09-11
Applicant: 桂林理工大学
IPC: G06K9/62
Abstract: 本发明公开一种以交叉熵为查询策略的主动学习方法。该方法包括:使用已标记数据集训练分类器;将训练后的分类器对测试集进行分类;计算所有未标记数据的交叉熵,再根据交叉熵值的大小对未标记数据从大到小排序,最后选取前K个交叉熵值大的未标记数据交由人类专家标记;标记后加入已标记数据集中用于分类器的下一次训练;循环迭代执行以上环节,直到标记代价或分类器分类性能达到预设条件终止学习。本发明可以选择少量最有价值的数据并进行标记,避免了选择冗余数据,同时减少了对大量未标记数据进行标记所需的人力和物力。
-
-