一种基于众包模式的多语种文本标注语料库搭建方法

    公开(公告)号:CN114564584A

    公开(公告)日:2022-05-31

    申请号:CN202210193209.9

    申请日:2022-02-28

    Abstract: 本发明提供一种基于众包模式的多语种文本标注语料库搭建方法,属于智能信息处理技术领域。该方法包括以下步骤:第一,获取文本数据,接着对对所述文本数据进行分类、预处理;将预处理后的文本数据导入生语料库,构成生语料库。第二,对语料标注者进行测验,并根据其标注的质量进行评分;接着对生语料库进行标注。第三,经过专家审查,提供标注语料库。与现有技术相比,本发明的有益效果为:本发明的方法通过对语料进行一系列预处理,并对语料状态进行管理,减少垃圾信息的干扰,提高了语料库质量。

Patent Agency Ranking