双语词典构建方法和设备

    公开(公告)号:CN107315741A

    公开(公告)日:2017-11-03

    申请号:CN201710374136.2

    申请日:2017-05-24

    Applicant: 清华大学

    Abstract: 本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。

    一种任务处理方法及其相关设备
    2.
    发明公开

    公开(公告)号:CN116542308A

    公开(公告)日:2023-08-04

    申请号:CN202310365374.2

    申请日:2023-03-30

    Abstract: 本申请公开了一种任务处理方法及其相关设备,可精准得到某个任务中的待处理信息的处理结果,从而成功处理用户所需完成的任务,有利于提高用户体验。本申请的方法包括:当用户需要完成第一任务时,可先获取来源于用户的第一提示,并将第一提示输入至目标模型,第一提示用于指示对用户输入的第一信息执行第一任务。接着,目标模型可对第一提示进行处理,从而得到第一提示的特征。然后,目标模型可对第一提示的特征进行处理,从而得到第二提示,第二提示仅用于指示第一任务。最后,目标模型可对第一提示的特征以及第二提示进行处理,从而得到第一任务中的对第一信息执行第一任务的处理结果。至此,目标模型则成功处理了用户所需完成的第一任务。

    一种知识蒸馏方法、装置及电子设备

    公开(公告)号:CN115496178A

    公开(公告)日:2022-12-20

    申请号:CN202211014122.7

    申请日:2022-08-23

    Abstract: 一种知识蒸馏方法,包括:利用第一数据选择策略对j批数据中的每一批数据均进行筛选,j≥1,以及,在对j批数据中任意一批数据进行筛选后,均利用从j批数据中任意一批数据中筛选出的数据进行知识蒸馏;当利用从j批数据中的第j批数据内筛选出的数据进行知识蒸馏后,从多个数据选择策略中筛选出第二数据选择策略;利用第二数据选择策略对q批数据中的每一批数据均进行筛选,q≥1,以及,在对q批数据中任意一批数据进行筛选后,均利用从q批数据中任意一批数据中筛选出的数据进行知识蒸馏。这样,每进行一段知识蒸馏后,均重新选择一次数据选择策略,从而可以筛选出对后续知识蒸馏价值更高的数据,进而降低了知识蒸馏的开销。

    双语词典构建方法和设备

    公开(公告)号:CN107315741B

    公开(公告)日:2019-11-22

    申请号:CN201710374136.2

    申请日:2017-05-24

    Applicant: 清华大学

    Abstract: 本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。

    平行句对的筛选方法和系统

    公开(公告)号:CN105512114B

    公开(公告)日:2018-06-15

    申请号:CN201510927066.X

    申请日:2015-12-14

    Applicant: 清华大学

    Abstract: 本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

    平行句对的筛选方法和系统

    公开(公告)号:CN105512114A

    公开(公告)日:2016-04-20

    申请号:CN201510927066.X

    申请日:2015-12-14

    Applicant: 清华大学

    CPC classification number: G06F17/289

    Abstract: 本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

Patent Agency Ranking