-
公开(公告)号:CN117422075A
公开(公告)日:2024-01-19
申请号:CN202311448715.9
申请日:2023-11-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F40/58 , G06F40/289 , G06F16/332 , G06F16/33
Abstract: 本发明提供一种基于单词删除的同声传译方法及系统,涉及自然语言处理技术领域,包括:获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;构建翻译模型,对翻译模型进行初始化;基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;将源语言文字序列输入至训练好的翻译模型,输出翻译结果。本发明通过采用随机删除目标语言单词的技术手段,强迫模型减少对完整目标语言的依赖,迫使其关注源语言端的信息,增强模型对不完整源语言序列的建模能力。通过针对性的单词随机删除技术方案,可以有效解决文本同传中产生的翻译幻觉问题。
-
公开(公告)号:CN118395999B
公开(公告)日:2024-09-10
申请号:CN202410841712.X
申请日:2024-06-27
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F40/58 , G06F40/56 , G06N3/0455 , G06N3/084
Abstract: 本发明提供一种同声传译模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,方法包括:将源语言文字序列输入编码器,生成源语言文字序列的上下文表示;解码器结合历史生成的目标语言文字序列和源语言文字序列的上下文表示,通过掩码多头注意力机制进行推理,生成候选目标语言文字序列;基于翻译质量评估指标,将每个候选目标语言文字序列与源语言文字序列进行比较,确定每个候选目标语言文字序列的质量得分;将质量得分确定为目标函数的风险;采用梯度下降优化算法,最小化目标函数,根据目标函数通过反向传播算法对编码器和解码器进行迭代更新,生成同声传译模型。本发明可以训练出翻译的准确性和流畅性更高的同声传译模型。
-
公开(公告)号:CN118395999A
公开(公告)日:2024-07-26
申请号:CN202410841712.X
申请日:2024-06-27
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F40/58 , G06F40/56 , G06N3/0455 , G06N3/084
Abstract: 本发明提供一种同声传译模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,方法包括:将源语言文字序列输入编码器,生成源语言文字序列的上下文表示;解码器结合历史生成的目标语言文字序列和源语言文字序列的上下文表示,通过掩码多头注意力机制进行推理,生成候选目标语言文字序列;基于翻译质量评估指标,将每个候选目标语言文字序列与源语言文字序列进行比较,确定每个候选目标语言文字序列的质量得分;将质量得分确定为目标函数的风险;采用梯度下降优化算法,最小化目标函数,根据目标函数通过反向传播算法对编码器和解码器进行迭代更新,生成同声传译模型。本发明可以训练出翻译的准确性和流畅性更高的同声传译模型。
-
-