-
公开(公告)号:CN116432019A
公开(公告)日:2023-07-14
申请号:CN202211586646.3
申请日:2022-12-09
Applicant: 华为技术有限公司
Abstract: 一种数据处理方法,应用于预训练模型,方法包括:通过第一预训练语言模型PLM,处理文本数据,得到目标特征表示;其中,第一PLM包括一个或多个第一网络层,目标特征表示为根据一个或多个第一网络层输出的第一特征表示得到;通过第二PLM,处理文本数据;第二PLM包括第一注意力层以及与第一注意力层连接的第二网络层;第一注意力层的输入包括目标特征表示以及第二网络层输出的第二特征表示。本申请从通用预训练语言模型中构建通用记忆知识表征,然后通过记忆增强层(第一注意力层)将其融合到特定领域的预训练语言模型(第二PLM)中,使得特定领域的预训练语言模型能够获取遗忘的通用领域知识,减少了预训练过程中出现的灾难性遗忘问题。