融入观点句特征的汉越双语新闻情感分类方法

    公开(公告)号:CN110347836A

    公开(公告)日:2019-10-18

    申请号:CN201910635891.0

    申请日:2019-07-15

    Abstract: 本发明涉及融入观点句特征的汉越双语新闻情感分类方法,属于自然语言处理技术领域。本发明通过汉越双语词嵌入模型将汉语和越南语映射到同一个语义空间中;然后根据新闻文本的特点,使用卷积神经网络从观点句中抽取观点特征,并通过选择性门控网络将观点句特征融入隐藏层中,之后利用层次注意力机制对新闻中的情感信息进行关注,最后通过softmax对情感极性进行分类。本发明有效地提升越南语新闻情感分类的准确性。

    基于多粒度解码约束的缅甸语图像文本识别方法及装置

    公开(公告)号:CN119580268A

    公开(公告)日:2025-03-07

    申请号:CN202510064855.9

    申请日:2025-01-15

    Abstract: 本发明涉及基于多粒度解码约束的缅甸语图像文本识别方法及装置,属于自然语言处理领域。缅甸语文本具有独特的编码顺序以及字符组合规则,为了解决缅甸语图像中形似字符识别不佳的问题,提出一种基于多粒度解码约束的缅甸语文本图像识别方法,主要由缅甸语文本图像数据集构建及预处理、设计包括基于滑动窗口的Transformer、语言特性驱动的多粒度特征抽取模块、多粒度特征融合模块的基于多粒度解码约束的缅甸语文本图像识别模型以及缅甸语文本图像识别四个部分构成。根据这四个部分功能模块化制成基于多粒度解码约束的缅甸语图像文本识别装置,有效地解决了因图像质量不佳而导致的缅甸语形似字符识别困难问题。

    基于融合高效参数迁移的老-汉神经机器翻译方法及装置

    公开(公告)号:CN119026611B

    公开(公告)日:2024-12-17

    申请号:CN202411481486.5

    申请日:2024-10-23

    Abstract: 本发明涉及融合高效参数迁移的老‑汉神经机器翻译方法及装置,属于自然语言处理技术领域。为了解决罗马化过程中出现多个字符转写为同一罗马化字符导致语义信息丢失的问题,影响泰语到老挝语的迁移效果,本发明提出了一种融合高效参数迁移的老‑汉神经机器翻译方法,包括文本数据预处理、罗马化信息融合、融合高效参数迁移的老‑汉神经机器翻译模型训练以及老‑汉神经机器翻译四个部分构成。根据这四个部分功能模块化制成融合高效参数迁移的老‑汉神经机器翻译装置,对输入的老挝语句子进行翻译,本发明有效提升了老挝语到汉语的翻译效果。

    融合预训练模型的端到端缅甸语文本图像识别方法及装置

    公开(公告)号:CN118799896A

    公开(公告)日:2024-10-18

    申请号:CN202410803820.8

    申请日:2024-06-20

    Abstract: 本发明涉及融合预训练模型的端到端缅甸语文本图像检测识别方法及装置,属于自然语言处理领域。为了解决多行缅甸语文本识别准确率较低的问题,提出一种融合预训练模型的端到端缅甸语文本图像识别方法,主要由缅甸语文本图像数据集构建及预处理;融合滑动窗口的Transformer和特征金字塔的缅甸语文本图像特征提取模块;融合预训练模型的缅甸语检测识别模型;缅甸语图像检测识别装置四个部分构成。本发明提高了模型的泛化能力和收敛速度,相比通用的图像识别方法本发明有效地缓解了缅甸语文本图像中特征丢失、漏检或不完整导致识别准确率低的问题。

    基于分化适配器的汉老泰多语言神经机器翻译方法

    公开(公告)号:CN118395998A

    公开(公告)日:2024-07-26

    申请号:CN202410818685.4

    申请日:2024-06-24

    Abstract: 本发明涉及基于分化适配器的汉老泰多语言神经机器翻译方法,属自然语言处理技术领域。汉‑老‑泰多语言机器翻译框架通过模型参数共享能有效共享相似语言知识提升老‑汉和泰‑汉翻译性能,但引入模型参数共享会导致不同语言间参数相互干扰问题。针对汉‑老‑泰多语言机器翻译框架中的参数干扰降低机器翻译质量问题,本发明包括数据处理和模型预训练、进行基于分化适配器的汉‑老‑泰多语言神经机器翻译模型微调、构建基于分化适配器的汉‑老‑泰多语言神经机器翻译装置三部分。本发明对输入的泰语或老挝语进行目标语言的翻译,本发明有效提升了汉‑老‑泰多语言机器翻译质量。

    基于词性软模板注意力机制的短文本自动摘要方法

    公开(公告)号:CN111709230B

    公开(公告)日:2023-04-07

    申请号:CN202010366742.1

    申请日:2020-04-30

    Abstract: 本发明涉及基于词性软模板注意力机制的短文本自动摘要方法,属于自然语言处理技术领域。本发明首先对文本进行词性标记,将标出的词性序列视为文本的词性软模板,指导模型学习构造摘要句的结构规范,在模型的编码端实现词性软模板的表征,然后引入词性软模板注意力机制,将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注,最后在解码端联合词性软模板注意力与传统注意力产生摘要句;本发明提出在构建神经网络摘要生成框架时,加入词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能,在当前ROUGE评价指标上取得了较好的效果。

    基于迁移学习的汉越神经机器翻译的方法

    公开(公告)号:CN110472252B

    公开(公告)日:2022-12-13

    申请号:CN201910751450.7

    申请日:2019-08-15

    Abstract: 本发明涉及基于迁移学习的汉越神经机器翻译的方法,属于自然语言处理技术领域。本发明包括步骤:语料收集与预处理:收集并预处理汉越、英越、汉英句对的平行语料;使用汉英和英越平行语料生成汉英越三语平行语料;训练汉英神经机器翻译模型与英越神经机器翻译模型,并使用预训练模型的参数初始化汉越神经机器翻译模型的参数;使用汉越平行语料对初始化后的汉越神经机器翻译模型进行微调训练,得到汉越神经机器翻译模型来进行汉越神经机器翻译。本发明能够有效地提升汉越神经机器翻译的性能。

    基于语言相似性的迁移学习平行句对抽取方法及装置

    公开(公告)号:CN113627150A

    公开(公告)日:2021-11-09

    申请号:CN202110743036.9

    申请日:2021-07-01

    Abstract: 本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理,将泰语中的子词和词语基于音标进行替换,得到泰语、老挝语句子的统一表示,然后,基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上,最后,利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上,从而达到提升汉语‑老挝语句对抽取模型性能目的,具有重要的理论和实际应用价值。

    一种基于低频词表示增强的汉越神经机器翻译的方法

    公开(公告)号:CN113051936A

    公开(公告)日:2021-06-29

    申请号:CN202110280508.1

    申请日:2021-03-16

    Abstract: 本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法,属于自然语言处理领域。神经机器翻译中的低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现的次数少,训练过程中低频词的表示不够准确,这一问题在低资源神经机器翻译任务中影响更为突出。本发明利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解了低频词表示不准确问题。本发明分别在汉‑越和越‑汉两个低资源翻译任务上进行实验,实验结果表明本发明提出的方法相对于基线模型分别在两个任务上提升了8.58%和6.06%。

Patent Agency Ranking