一种农业语料库的构建方法及装置

    公开(公告)号:CN113220827A

    公开(公告)日:2021-08-06

    申请号:CN202110463202.X

    申请日:2021-04-23

    Abstract: 本发明提供了一种农业语料库的构建方法及装置,该方法包括:基于农业语料库的标注体系确定标注工具;基于随机选择的农业样本数据进行第一标注培训,得到机器学习模型;基于主动学习选择的农业样本数据进行第二标注培训,得到训练更新的机器学习模型,并得到更新的标注工具;基于主动学习选择的农业样本数据进行正式标注,得到标注数据;基于农业样本数据及其标注数据构建农业语料库。本发明通过主动学习和标注一致性分析,提升了数据标注的成效,并获得大量规范有效的农业标注数据,解决了当前农业语料库数据混乱的问题。同时,以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。

    一种农业语料库的构建方法及装置

    公开(公告)号:CN113220827B

    公开(公告)日:2023-03-28

    申请号:CN202110463202.X

    申请日:2021-04-23

    Abstract: 本发明提供了一种农业语料库的构建方法及装置,该方法包括:基于农业语料库的标注体系确定标注工具;基于随机选择的农业样本数据进行第一标注培训,得到机器学习模型;基于主动学习选择的农业样本数据进行第二标注培训,得到训练更新的机器学习模型,并得到更新的标注工具;基于主动学习选择的农业样本数据进行正式标注,得到标注数据;基于农业样本数据及其标注数据构建农业语料库。本发明通过主动学习和标注一致性分析,提升了数据标注的成效,并获得大量规范有效的农业标注数据,解决了当前农业语料库数据混乱的问题。同时,以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。

Patent Agency Ranking