-
公开(公告)号:CN116611473A
公开(公告)日:2023-08-18
申请号:CN202310629724.1
申请日:2023-05-31
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06N3/045 , G06N3/0455 , G06N3/09 , G06N3/084
Abstract: 本发明涉及人工智能应用技术领域,特别涉及一种面向序列任务的Transformer监督学习双重一致性正则化方法及系统,通过对训练输入序列添加扰动,得到用于模型训练的扰动序列数据;基于扰动序列数据确定基础模型训练损失、及基础模型和均值模型之间一致性损失,其中,基础模型为采用Transformer结构建模的序列任务端到端模型,均值模型为基于基础模型并利用指数移动平均值对基础模型反向传播更新参数进行迁移来获取的模型结构;基于基础模型训练损失和基础模型和均值模型之间一致性损失获取基础模型的整体训练损失;基于整体训练损失调整基础模型参数,得到目标序列任务端到端模型。本发明可提升序列生成模型鲁棒性,便于机器翻译、文本摘要等序列任务中应用。
-
公开(公告)号:CN116644763A
公开(公告)日:2023-08-25
申请号:CN202310543688.7
申请日:2023-05-15
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/58 , G06N3/0455 , G06N3/084 , G06N3/042 , G06N3/0895
Abstract: 本发明属于自然语言处理技术领域,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,该方法包括针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。针对双语数据,运用k近邻非参数知识蒸馏加入一致性损失的方式,实现更好的挖掘双语知识;针对单语数据,将知识蒸馏和自训练相结合提出一种自蒸馏的模型,实现更好的挖掘单语知识;两个模块相结合构成双重知识蒸馏的机器翻译模型,实现了更有效的挖掘双语数据和单语数据中的知识。
-
公开(公告)号:CN117313752A
公开(公告)日:2023-12-29
申请号:CN202311385154.2
申请日:2023-10-24
Applicant: 中国人民解放军战略支援部队信息工程大学
Abstract: 本发明提供一种基于互信息和强化学习的无监督机器翻译方法。该方法包括:构建基于编码器‑解码器结构的机器翻译模型;采用预训练模型对机器翻译模型进行初始化;对机器翻译模型进行去噪自编码训练和反向翻译训练,得到无监督机器翻译损失;建立机器翻译模型的机器翻译过程与马尔可夫决策过程的对应关系,并基于机器翻译模型的输入序列和输出序列之间的互信息构建得到无监督奖励函数,从而利用强化学习再次训练机器翻译模型,得到强化学习策略损失;根据无监督机器翻译损失和强化学习策略损失得到机器翻译模型的总损失;通过梯度回传对机器翻译模型的参数进行更新;重复上述训练过程,直至机器翻译模型收敛。
-
公开(公告)号:CN117371460A
公开(公告)日:2024-01-09
申请号:CN202311413103.6
申请日:2023-10-27
Applicant: 中国人民解放军战略支援部队信息工程大学
IPC: G06F40/58 , G06N3/0895 , G06N3/0455 , G06N3/096
Abstract: 本发明属于自然语言处理技术领域,公开一种基于多任务学习和特征自蒸馏的半监督机器翻译方法,包括:步骤1:输入源语言语句,源语言语句类型包括源端单语数据,目标端单语数据和有标记双语数据;步骤2:根据输入的不同,分别执行步骤3、步骤4或步骤5;步骤3:若输入为源端单语数据,执行编码器自蒸馏任务,得到编码后特征并对模型进行更新;步骤4:若输入为目标端单语数据,执行解码器自蒸馏任务,得到最终的机器翻译结果并对模型进行更新;步骤5:若输入为有标记双语数据,执行监督机器翻译任务,得到最终的机器翻译结果并对模型进行更新。本发明所提方法可以有效挖掘单语数据中的有用知识,提升模型性能,并与其他方法显示出互补效果。
-
-
-