-
公开(公告)号:CN111914061A
公开(公告)日:2020-11-10
申请号:CN202010669244.4
申请日:2020-07-13
Applicant: 上海乐言信息科技有限公司
Abstract: 本发明公开了一种文本分类主动学习的基于半径的不确定度采样方法和系统,应用于多类别短文本,优化减弱场景中噪声对结果的不良影响,并且方法的普适性较高,能够适用于任何存在隐藏层的深度模型。其技术方案为:通过文本分类器对每个标注数据的数据点的信息熵进行评分,并给出该标注数据的预测类别;文本分类器对未标注数据给出对应的预测类别;分别计算每个预测类别的半径;将标注数据的信息熵评分、标注数据的预测类别、未标注数据的预测类别的半径组合在一起,得到综合评分。
-
公开(公告)号:CN111897912A
公开(公告)日:2020-11-06
申请号:CN202010669590.2
申请日:2020-07-13
Applicant: 上海乐言信息科技有限公司
Abstract: 本发明公开了基于采样频率优化的主动学习短文本分类方法和系统,拓宽主动学习优化方向,提供业界广泛使用的简单有效的优化框架。其技术方案为:文本分类器学习已标注数据;基于文本分类器的学习结果对未标注数据进行采样评估并选出最有价值数据;对选出数据进行手动标注并加入到已标注数据中,重复上述步骤直到迭代次数达到上限或准确度达标。在采样评估过程中,对已标注数据,根据其所属类别进行分类,统计每种类别已标注的数据量,得到各自的采样频率数据;对未标注数据,对未标注数据先进行评估得到初始评估分值及其预测结果类别,然后根据预测结果类别获取对应的采样频率数据,基于初始评估分值和对应类别的采样频率数据得到最终评估分值。
-