缓解语言对差异冲突的多语言机器翻译模型的训练方法

    公开(公告)号:CN112329481A

    公开(公告)日:2021-02-05

    申请号:CN202011167339.2

    申请日:2020-10-27

    Applicant: 厦门大学

    Abstract: 本发明提出了一种缓解语言对差异冲突的多语言机器翻译模型的训练方法,该方法包括:获取训练语料,其中,训练语料包括多个语言对;建立多语言机器翻译模型,并根据训练语料的每个语言对对多语言机器翻译模型进行训练;在训练过程中,计算训练语料中所有语言对对应的导数,并对任意两个语言对对应的导数进行冲突调整,以获取调整后的所有语言对对应的导数;根据调整后的所有语言对对应的导数对多语言机器翻译模型参数进行更新,以得到训练好的多语言机器翻译模型;由此,通过对任意两个语言对对应的导数进行冲突调整,从而减轻了不同语言对的训练实例对模型参数更新的导数冲突问题,从而提高了多语言机器翻译模型在多个语言对上的整体效果。

    一种基于N-Gram的新型关键词提取方法

    公开(公告)号:CN112163421A

    公开(公告)日:2021-01-01

    申请号:CN202011072560.X

    申请日:2020-10-09

    Applicant: 厦门大学

    Inventor: 陈骏轩 苏劲松

    Abstract: 本发明涉及一种基于N‑Gram的新型关键词提取方法,包含以下步骤:S1,获取用户输入的第一文本;S2,定义N=1,对所述第一文本进行N‑Gram分割,得到单字符合集,计算每个单字符的出现概率;S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;S4,定义N=2;S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。

    基于迭代式双向迁移的神经网络机器翻译模型

    公开(公告)号:CN110674648A

    公开(公告)日:2020-01-10

    申请号:CN201910933203.9

    申请日:2019-09-29

    Applicant: 厦门大学

    Abstract: 基于迭代式双向迁移的神经网络机器翻译模型,涉及自然语言处理。通过建立源领域和目标领域之间的多次双向迁移,利用双方的有效交互和相关知识的有益流动,不断完善不同领域的模型能力,从而达到更佳的翻译效果。由一对一的领域迁移推广到多对一的领域迁移,并提出了多对一的领域迁移中,不同源领域到目标领域的迁移顺序问题的有效解决方案,使模型能够更充分地利用多领域的语料资源。训练过程利用知识蒸馏的方法来更有效地指导模型的收敛,避免了灾难性遗忘和知识稀疏问题,实现两个领域翻译模型的“双赢”。

    一种上下文感知的短语表示学习方法

    公开(公告)号:CN110334358A

    公开(公告)日:2019-10-15

    申请号:CN201910349591.6

    申请日:2019-04-28

    Applicant: 厦门大学

    Abstract: 一种上下文感知的短语表示学习方法,涉及双语短语的表示学习。基于递归自编码器的短语表示学习;上下文建模;主题上下文感知的短语表示;短语对的语义约束;主题上下文映射;词-主题语义约束建模。将短语所在文档的主题分布作为短语的上下文,将其加入到短语的表示学习中,得到上下文感知的短语表示。利用主题模型得到的词的主题分布来约束词和主题的嵌入表示的学习,进而影响学习到到的短语表示,进一步提高学习到的短语表示的质量。

    基于图的双语递归自编码器

    公开(公告)号:CN107092594B

    公开(公告)日:2019-07-09

    申请号:CN201710257714.4

    申请日:2017-04-19

    Applicant: 厦门大学

    Abstract: 基于图的双语递归自编码器,涉及基于深度学习的自然语言处理。从平行语料中抽取双语短语作为训练数据,计算双语短语之间的翻译概率;基于枢轴语言的方法,计算复述概率;构造双语短语的语义关系图;基于双语短语的语义关系图;量化模型目标函数,进行模型参数训练。以更好地学习双语短语嵌入表示为目标,针对传统方法缺乏考虑自然语言中更加充分的语义约束关系,提出一种基于图的双语递归自编码器。算法明确、思路清晰,可以提高学到的双语短语嵌入表示,更好地作用于自然语言处理任务。首先构造双语短语的语义关系图,通过图结构定义两个隐式语义约束,用于学习更加精确的双语短语嵌入表示,进而更好地应用于自然语言处理任务中,如机器翻译。

    基于数据依赖性和访问量的云数据分配存储的优化方法及系统

    公开(公告)号:CN105430074B

    公开(公告)日:2018-06-29

    申请号:CN201510779709.0

    申请日:2015-11-13

    Abstract: 本发明公开一种基于数据依赖性和访问量的云数据分配存储的优化方法(1)初始阶段的数据分配,a:原始数据中的固定数据集分配到相应数据中心;计算非固定数据集中每一个数据集与其他数据集之间的相关度;b:依次分配每一个数据集,选择与之相关度最大的数据集;若无法分配则放置等待队列中,等待最后阶段分配;(2)运行阶段,a:根据传输开销将任务调度到传输开销最小的数据中心执行;b:执行完毕后若新产生任务与数据集,则首先更新任务集合,然后根据数据集与数据中心的相关度,选择相关度最大的数据中心放置中间数据集。本发明还公开一种实现上述方法的系统。采用本发明不仅考虑数据的访问量而且考虑数据间的依赖性,大大提高了云计算下的访问效率。

    一种基于内部语义层次结构的词嵌入表示方法

    公开(公告)号:CN107025219A

    公开(公告)日:2017-08-08

    申请号:CN201710256916.7

    申请日:2017-04-19

    Applicant: 厦门大学

    CPC classification number: G06F17/2795 G06F17/2785 G06N3/04

    Abstract: 一种基于内部语义层次结构的词嵌入表示方法,涉及基于深度学习的自然语言处理。使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。

Patent Agency Ranking