基于提示调优的集成式主动学习科学文本分类方法及系统

    公开(公告)号:CN119494013A

    公开(公告)日:2025-02-21

    申请号:CN202411498523.3

    申请日:2024-10-25

    Applicant: 江南大学

    Abstract: 本发明涉及一种基于提示调优的集成式主动学习科学文本分类方法及系统,该方法包括:获取有标签的第一文本数据集、未标记的第二文本数据集和有标签的第三文本数据集,使用第一文本数据集对提前构建的文本分类模型进行预训练;基于预训练后的文本分类模型,对第二文本数据集进行预测,根据每个样本数据的预测标签的置信度,得到从第二文本数据集中筛选出置信度具有训练价值的样本数据,并对其进行标记;利用标记后的第四文本数据集更新第一文本数据集;在每一次利用更新后的第一文本数据集训练下一轮的文本分类模型中,若满足停止迭代条件,得到训练好的文本分类模型。本发明在数据利用效率、模型性能提升以及自动化程度方面都表现出了显著的优势。

Patent Agency Ranking