-
公开(公告)号:CN115034237B
公开(公告)日:2024-10-29
申请号:CN202210618305.3
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/58
Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。
-
公开(公告)号:CN115034237A
公开(公告)日:2022-09-09
申请号:CN202210618305.3
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/58
Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。
-