基于融合词性和位置信息的汉-越卷积神经机器翻译方法

    公开(公告)号:CN110321568A

    公开(公告)日:2019-10-11

    申请号:CN201910613122.0

    申请日:2019-07-09

    Abstract: 本发明涉及基于融合词性和位置信息的汉-越卷积神经机器翻译方法,属于自然语言处理技术领域。本发明首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉-越神经机器翻译模型再进行汉语越南语机器翻译。本发明有效的改善了汉越译文语序不一致的问题,能提升资源稀缺的汉-越神经机器翻译性能。

    一种基于迁移学习的缅甸语依存句法分析方法

    公开(公告)号:CN110008467A

    公开(公告)日:2019-07-12

    申请号:CN201910158572.5

    申请日:2019-03-04

    Abstract: 本发明涉及一种基于迁移学习的缅甸语依存句法分析方法,属于自然语言处理领域。首先利用资源丰富语言英语依存句法分析语料训练英语的依存句法分析模型,其次在训练的英语依存句法分析模型的基础上利用迁移学习的思想共享网络参数到低资源的缅甸语依存句法分析语料上,最后加入缅甸语低质量依存句法分析语料来对模型调优获取缅甸语依存句法分析模型。本方法能有效提升低资源语言依存句法分析的性能。

    基于分化适配器的汉老泰多语言神经机器翻译方法

    公开(公告)号:CN118395998B

    公开(公告)日:2024-08-16

    申请号:CN202410818685.4

    申请日:2024-06-24

    Abstract: 本发明涉及基于分化适配器的汉老泰多语言神经机器翻译方法,属自然语言处理技术领域。汉‑老‑泰多语言机器翻译框架通过模型参数共享能有效共享相似语言知识提升老‑汉和泰‑汉翻译性能,但引入模型参数共享会导致不同语言间参数相互干扰问题。针对汉‑老‑泰多语言机器翻译框架中的参数干扰降低机器翻译质量问题,本发明包括数据处理和模型预训练、进行基于分化适配器的汉‑老‑泰多语言神经机器翻译模型微调、构建基于分化适配器的汉‑老‑泰多语言神经机器翻译装置三部分。本发明对输入的泰语或老挝语进行目标语言的翻译,本发明有效提升了汉‑老‑泰多语言机器翻译质量。

    验证共有子词对XLM翻译模型效果影响的实验方法

    公开(公告)号:CN112861516B

    公开(公告)日:2023-05-16

    申请号:CN202110079357.3

    申请日:2021-01-21

    Abstract: 本发明涉及验证共有子词对XLM翻译模型效果影响的实验方法。本发明包括:对XLM翻译模型预训练的语料库进行预处理;验证XLM翻译模型性能是否退化:用预处理后的语料库对XLM翻译模型进行预训练,用预训练后的模型初始化翻译模型,观察新的翻译模型的BLEU值。预处理包括如下:首先获取英语和法语子词中的共有子词及所有子词词频;然后根据分离比例,随机对共有子词进行分离;随后读取所有英法子词的词表保存在词典中,用于后续生成分离子词文件;使用生成的分离子词文件初始化词典,最后使用初始化后的词典来结构化模型语料库文件。本发明验证了共有子词对BLEU值的影响,且本发明对非同源语言的低资源神经机器翻译研究有帮助。

    基于知识蒸馏的缅甸语OCR方法

    公开(公告)号:CN112287920B

    公开(公告)日:2022-06-14

    申请号:CN202010978722.X

    申请日:2020-09-17

    Abstract: 本发明涉及基于知识蒸馏的缅甸语OCR方法。本发明包括如下步骤:构建适应任务需求的缅甸语图像数据集;对生成的图像加噪,对图像所对应的标签编码进行规则性标注;构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构;基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取,使学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。本发明实现了对缅甸语图像文本的识别,且识别精确率高,效果好。

    一种以泰语为枢轴的老-汉双语语料库构建方法及装置

    公开(公告)号:CN110717341B

    公开(公告)日:2022-06-14

    申请号:CN201910856645.8

    申请日:2019-09-11

    Abstract: 本发明涉及以泰语为枢轴的老‑汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语‑泰语平行语料数据进行泰语分词处理;构建老挝语‑泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语‑泰语平行句对;构建基于双向LSTM的老挝语‑泰语平行句对分类模型,对候选的老挝语‑泰语平行句对进行分类,获取老挝语‑泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语‑汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老‑汉双语平行语料库构建装置,本发明解决了老挝语‑汉语语料稀缺的问题,对老‑汉双语语料库的构建具有一定的理论意义和实际应用价值。

    基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

    公开(公告)号:CN113901844A

    公开(公告)日:2022-01-07

    申请号:CN202111068294.8

    申请日:2021-09-13

    Abstract: 本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理领域。针对汉语‑缅甸语双语资源稀缺、结构差异较大的特点,故提出了本发明的方法及装置,本发明方法主要包括汉语‑缅甸语文本数据预处理、模型不确定性注意力机制、模型不确定性约束的半监督汉缅神经机器翻译训练算法、汉语‑缅甸语互译模型等四个部分构成。本发明所提方法在Transformer网络中利用基于变分推断的蒙特卡洛Dropout构建模型不确定性注意力机制,能够有效获取到能够区分噪声数据的句子向量表征,提升汉语‑缅甸语神经机器翻译性能,对汉语‑东南亚语神经机器翻译具有理论和实际应用价值。

    基于知识表示的跨境民族文化文本分类方法

    公开(公告)号:CN111444343B

    公开(公告)日:2021-04-06

    申请号:CN202010212069.6

    申请日:2020-03-24

    Abstract: 本发明涉及基于知识表示的跨境民族文化文本分类方法,属于自然语言处理技术领域。本发明包括步骤:获取若干本土及其跨境民族文化文本数据;本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练,利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。本发明在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。

    融入双语词典的无监督汉-越神经机器翻译方法

    公开(公告)号:CN112507732A

    公开(公告)日:2021-03-16

    申请号:CN202011224944.9

    申请日:2020-11-05

    Abstract: 本发明涉及融入双语词典的无监督汉‑越神经机器翻译方法,属于自然语言处理技术领域。本发明所提方法的具体思路为:分别收集汉语、英语和越南语的单语语料,并对语料进行预处理;利用基于英语枢轴的方法从单语中学习汉越双语词典;利用双语词典初始化翻译模型;翻译单语句子,对翻译的句子加噪,训练栈式自编码器;将通过训练学习到的参数给翻译模型,进一步完成迭代,以提高翻译模型的性能。本发明方法,将学习到的汉越词典作为跨语言信息融入到汉越无监督机器翻译中,在此基础上改进去噪自编码器的重构能力来提升模型的鲁棒性。最终,提升基于枢轴词典的汉越神经机器翻译质量。

    基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

    公开(公告)号:CN112287695A

    公开(公告)日:2021-01-29

    申请号:CN202010990010.X

    申请日:2020-09-18

    Abstract: 本发明涉及跨语言双语预训练及Bi‑LSTM汉‑越平行句对抽取方法,属于自然语言技术领域。本发明首先收集汉越可比语料,从可比语料中抽取汉越平行句对。然后在预训练中需要一个汉越种子词典及大量汉越单语,通过将汉越双语映射到公共语义空间进行词对齐,再利用汉越种子词典通过自学习的方式迭代地生成新词典,从而最大化表示汉越句子间语义相似性。然后将预训练后得到的汉语和越南语句子输入到一个由Bi‑LSTM和CNN组成的孪生神经网络,分别提取到句子的全局特征和局部特征。最后用全连接层来判断输入的句对是否为汉越双语平行句对。本发明在从可比语料中抽取平行句对的实验取得了好的效果。

Patent Agency Ranking