融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

    公开(公告)号:CN112287688A

    公开(公告)日:2021-01-29

    申请号:CN202010980757.7

    申请日:2020-09-17

    Abstract: 本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明包括步骤:数据预处理构建英‑缅平行句对数据集;利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型;收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判,为开展英‑缅神经机器翻译研究工作提供了数据支撑。

    融合关键词和语义特征的汉越文本相似度计算方法

    公开(公告)号:CN112257453A

    公开(公告)日:2021-01-22

    申请号:CN202011006911.7

    申请日:2020-09-23

    Abstract: 本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

    基于词性软模板注意力机制的短文本自动摘要方法

    公开(公告)号:CN111709230A

    公开(公告)日:2020-09-25

    申请号:CN202010366742.1

    申请日:2020-04-30

    Abstract: 本发明涉及基于词性软模板注意力机制的短文本自动摘要方法,属于自然语言处理技术领域。本发明首先对文本进行词性标记,将标出的词性序列视为文本的词性软模板,指导模型学习构造摘要句的结构规范,在模型的编码端实现词性软模板的表征,然后引入词性软模板注意力机制,将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注,最后在解码端联合词性软模板注意力与传统注意力产生摘要句;本发明提出在构建神经网络摘要生成框架时,加入词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能,在当前ROUGE评价指标上取得了较好的效果。

    融合句法解析树的汉-越神经机器翻译方法

    公开(公告)号:CN110377918B

    公开(公告)日:2020-08-28

    申请号:CN201910635895.9

    申请日:2019-07-15

    Abstract: 本发明涉及融合句法解析树的汉‑越神经机器翻译方法,属于自然语言处理技术领域。本发明能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误;本发明首先对源语言进行分词、词性标记以及句法解析,得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程,训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明,相比未融合句法解析树的基准系统该方法得到的译文更加流畅,并获得了0.6个BLEU值的提升。

    基于融合词性和位置信息的汉-越卷积神经机器翻译方法

    公开(公告)号:CN110321568B

    公开(公告)日:2020-08-28

    申请号:CN201910613122.0

    申请日:2019-07-09

    Abstract: 本发明涉及基于融合词性和位置信息的汉‑越卷积神经机器翻译方法,属于自然语言处理技术领域。本发明首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉‑越神经机器翻译模型再进行汉语越南语机器翻译。本发明有效的改善了汉越译文语序不一致的问题,能提升资源稀缺的汉‑越神经机器翻译性能。

    基于融合高效参数迁移的老-汉神经机器翻译方法及装置

    公开(公告)号:CN119026611A

    公开(公告)日:2024-11-26

    申请号:CN202411481486.5

    申请日:2024-10-23

    Abstract: 本发明涉及融合高效参数迁移的老‑汉神经机器翻译方法及装置,属于自然语言处理技术领域。为了解决罗马化过程中出现多个字符转写为同一罗马化字符导致语义信息丢失的问题,影响泰语到老挝语的迁移效果,本发明提出了一种融合高效参数迁移的老‑汉神经机器翻译方法,包括文本数据预处理、罗马化信息融合、融合高效参数迁移的老‑汉神经机器翻译模型训练以及老‑汉神经机器翻译四个部分构成。根据这四个部分功能模块化制成融合高效参数迁移的老‑汉神经机器翻译装置,对输入的老挝语句子进行翻译,本发明有效提升了老挝语到汉语的翻译效果。

    基于语言相似性的迁移学习平行句对抽取方法及装置

    公开(公告)号:CN113627150B

    公开(公告)日:2022-12-20

    申请号:CN202110743036.9

    申请日:2021-07-01

    Abstract: 本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理,将泰语中的子词和词语基于音标进行替换,得到泰语、老挝语句子的统一表示,然后,基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上,最后,利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上,从而达到提升汉语‑老挝语句对抽取模型性能目的,具有重要的理论和实际应用价值。

    融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

    公开(公告)号:CN112287688B

    公开(公告)日:2022-02-11

    申请号:CN202010980757.7

    申请日:2020-09-17

    Abstract: 本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明包括步骤:数据预处理构建英‑缅平行句对数据集;利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型;收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判,为开展英‑缅神经机器翻译研究工作提供了数据支撑。

    基于拼音约束联合学习的汉语语音识别方法

    公开(公告)号:CN112349288A

    公开(公告)日:2021-02-09

    申请号:CN202010988154.1

    申请日:2020-09-18

    Abstract: 本发明涉及基于拼音约束联合学习的汉语语音识别方法,属于自然语言处理技术领域。本发明首先从公开中文语料集中收集与语音、文本对应的拼音文本,其次通过共享编码器对语音特征编码,再以拼音语音识别为辅助任务,然后,在解码过程中利用拼音作为解码约束,基于共享编码器将拼音语音识别语汉语语音识别联合学习,引入一种更接近语音的归纳偏置,增强编码器对汉语语音的表达能力。本发明提出的基于拼音约束联合学习的汉语语音识别方法,对汉语的识别降低了词错率,为后续在汉语语音识别过程中融入拼音以及使用拼音纠错等工作提供强有力的支撑;缓解了端到端的模型对汉字的识别难以收敛的问题。

Patent Agency Ranking