基于多策略原型生成的低资源神经机器翻译方法

    公开(公告)号:CN114676708A

    公开(公告)日:2022-06-28

    申请号:CN202210293213.2

    申请日:2022-03-24

    Abstract: 本发明涉及基于多策略原型生成的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列。其次,为有效地利用原型序列,对传统的编码器‑解码器框架进行了改进。编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响。本发明提出的方法能够基于少量平行语料有效地提升检索结果的数量和质量,适用于低资源环境下及相似性语言环境下的神经机器翻译。

    基于多策略原型生成的低资源神经机器翻译方法

    公开(公告)号:CN114676708B

    公开(公告)日:2024-04-23

    申请号:CN202210293213.2

    申请日:2022-03-24

    Abstract: 本发明涉及基于多策略原型生成的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列。其次,为有效地利用原型序列,对传统的编码器‑解码器框架进行了改进。编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响。本发明提出的方法能够基于少量平行语料有效地提升检索结果的数量和质量,适用于低资源环境下及相似性语言环境下的神经机器翻译。

    一种融合主题信息的司法舆情文本摘要方法

    公开(公告)号:CN110909152A

    公开(公告)日:2020-03-24

    申请号:CN201910999268.3

    申请日:2019-10-21

    Abstract: 本发明涉及融合主题信息的司法舆情文本摘要方法。本发明首先构造司法舆情文本摘要数据集;利用主题模型生成包含主题词和文档主题概率分布的司法舆情主题知识库;再在基于注意力的编解码模型基础上,提出一种基于主题信息约束的司法舆情文本摘要模型。一方面对主题词编码获得新闻文本相关的主题向量,将其作为外部知识融入解码过程中指导摘要生成;另一方面计算得到已生成摘要的主题分布,利用预训练的新闻文本主题分布优化模型。本发明利用主题信息作为外部知识,更有效的指导解码过程,生成质量更高的文本摘要,为开展融入领域知识的司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

    一种超重力-熔析分离废旧光伏电池片中Si、Al、Ag的方法

    公开(公告)号:CN119040635A

    公开(公告)日:2024-11-29

    申请号:CN202411163598.6

    申请日:2024-08-23

    Abstract: 本发明涉及一种超重力‑熔析分离废旧光伏电池片中Si、Al、Ag的方法,属于光伏固废再生利用技术领域。本发明将废旧光伏电池片置于超重力分离装置中,在惰性气氛下加热使表面的Ag和Al完全熔化,内部的Si片保持固相,超重力熔融分离得到固相单质Si和Al‑Ag‑Si熔体;Al‑Ag‑Si熔体匀速降温并使Al‑Ag‑Si熔体熔析得到Al‑Ag熔体和固相单质Si的混合物,超重力熔融分离得到Al‑Ag熔体和固相单质Si;将金属Mg添加至Al‑Ag熔体中并完全溶解,搅拌熔析得到Al熔体和固相Ag‑Mg化合物的混合物,超重力熔融分离得到Al熔体和固相Ag‑Mg化合物;固相Ag‑Mg化合物在温度900~1000℃下真空蒸馏分离,得到金属Ag与金属Mg,金属Mg返回循环使用。本发明可实现废旧光伏电池片中有价金属Si、Al、Ag的高效分离。

    一种融合主题信息的司法舆情文本摘要方法

    公开(公告)号:CN110909152B

    公开(公告)日:2021-07-09

    申请号:CN201910999268.3

    申请日:2019-10-21

    Abstract: 本发明涉及融合主题信息的司法舆情文本摘要方法。本发明首先构造司法舆情文本摘要数据集;利用主题模型生成包含主题词和文档主题概率分布的司法舆情主题知识库;再在基于注意力的编解码模型基础上,提出一种基于主题信息约束的司法舆情文本摘要模型。一方面对主题词编码获得新闻文本相关的主题向量,将其作为外部知识融入解码过程中指导摘要生成;另一方面计算得到已生成摘要的主题分布,利用预训练的新闻文本主题分布优化模型。本发明利用主题信息作为外部知识,更有效的指导解码过程,生成质量更高的文本摘要,为开展融入领域知识的司法舆情文本摘要研究提供了可借鉴的方法,同时也为及时、有效、快速的司法舆情应急处置提供强有力的支撑。

    基于重读和反馈机制的神经机器翻译方法

    公开(公告)号:CN110472727B

    公开(公告)日:2021-05-11

    申请号:CN201910676598.9

    申请日:2019-07-25

    Abstract: 本发明涉及基于重读和反馈机制的神经机器翻译方法,属于自然语言处理技术领域。首先,第一层编码器的最终状态在传递给第一层解码器进行解码的同时,生成其副本并传递给第二层编码器,第二层编码器重新读取该状态用于参数初始化,该过程称为“重读”。其次,将第一层解码器的解码结果和源语言共同作为重要性计算方法的输入,产生的重要性权重反馈到第二层编码器用于指导编码,该过程称为“反馈”。本发明能够实现端到端神经网络结构的改变,改变后的网络结构能够更好的挖掘全局信息,适用于平行语料稀缺型翻译环境。

    融合单语语言模型的汉越伪平行语料生成方法

    公开(公告)号:CN111709254A

    公开(公告)日:2020-09-25

    申请号:CN202010368001.7

    申请日:2020-04-30

    Abstract: 本发明涉及融合单语语言模型的汉越伪平行语料生成方法,属于自然语言处理技术领域。本发明考虑到单语数据的可利用性,在回译方法的基础上,将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行语料,并将生成的语料添加到原始小规模语料中训练最终翻译模型。本发明通过将语言模型和神经机器翻译模型融合,能够产生质量更优的伪平行语料,进而更好地提升汉越神经机器翻译系统的性能和效果。

    基于深度可分离卷积的汉越神经机器翻译方法

    公开(公告)号:CN111144142A

    公开(公告)日:2020-05-12

    申请号:CN201911391334.5

    申请日:2019-12-30

    Abstract: 本发明涉及一种基于深度可分离卷积的汉越神经机器翻译方法,属于资源稀缺型语言神经机器翻译技术领域。本发明首先根据越南语的语言特点,将越南语切分为词、音节、字符、子词四种不同的翻译粒度序列。其次利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,本发明通过在神经机器翻译模型编码器嵌入层之前增加深度可分离卷积神经网络的方法,在资源稀缺型语言机器翻译领域构建了基于深度可分离卷积的汉越神经机器翻译方法,有效的缓解了资源稀缺型语言神经机器翻译数据稀疏的问题,提升了翻译性能。

    基于降噪原型序列的汉越神经机器翻译方法

    公开(公告)号:CN115034239B

    公开(公告)日:2024-06-21

    申请号:CN202210787747.0

    申请日:2022-07-06

    Abstract: 本发明涉及基于降噪原型序列的汉越神经机器翻译方法,属自然语言处理领域。本发明包括:将汉语和越南语的句子语映射到向量空间,利用跨语言相似性检索出目标端原型序列;接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖;之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配;最后将处理好的原型序列作为模板信息,应用在双编码器‑单解码器结构,指导翻译任务。针对汉越数据集的实验结果表明,与当前最优模型相比,本发明在利用越南语单语数据缓解双语资源匮乏的同时,将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强,有效提升了汉越机器翻译的性能。

Patent Agency Ranking