文本数据的增强方法及装置
    3.
    发明公开

    公开(公告)号:CN116911298A

    公开(公告)日:2023-10-20

    申请号:CN202310176881.1

    申请日:2023-02-28

    Abstract: 一种文本数据的增强方法及装置,该方法包括:获取针对目标任务的文本语料,所述文本语料包括标注语料;根据所述目标任务,确定第一标注语料中的待替换文本;利用第一语义特征模型选择所述待替换文本相近似的多个候选文本,利用第二语义特征模型从所述多个候选文本中选择与所述待替换文本最近似的目标文本,将所述第一标注语料中的待替换文本替换为所述目标文本,获得中间语料;对所述中间语料进行回译操作,得到第二标注语料,其中,所述第二标注语料的标签信息与所述第一标注语料的标签信息相同。本申请能够提高新增标注语料的质量,为基于标注语料训练后续的自然语言处理任务模型提供支持,改善训练得到的模型质量,提高模型的推理效果。

Patent Agency Ranking