一种自监督伪标签优化的跨语言命名实体识别方法及系统

    公开(公告)号:CN116187330A

    公开(公告)日:2023-05-30

    申请号:CN202211659583.X

    申请日:2022-12-22

    Abstract: 本发明公开了一种自监督伪标签优化的跨语言命名实体识别方法及系统,该方法包括:根据用户获得目标语言伪标签数据集的功能需求,利用源语言数据集训练源语言模型来并利用源语言模型为用户进行目标语言的标注工作,提供给用户目标语言的伪标签数据集;将目标语言的伪标签数据集进行粗粒度选择;将粗粒度选择后的伪标签数据集进行细粒度过滤;将细粒度过滤后的伪标签数据集进行知识蒸馏训练用于目标语言的命名实体识别模型。本发明提出一种自监督伪标签优化的跨语言命名实体识别方法及系统,基于粗粒度选择与细粒度过滤选择了有效的伪标签数据样本且改善了跨语言命名实体的效果。

Patent Agency Ranking