-
公开(公告)号:CN110489541B
公开(公告)日:2021-02-05
申请号:CN201910680097.8
申请日:2019-07-26
Applicant: 昆明理工大学
IPC: G06F16/34 , G06F16/35 , G06F16/951
Abstract: 本发明涉及基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,属于自然语言处理技术领域。本发明首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类,得到摘要。本发明实现了从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要。对于相关人员快速掌控舆情态势有着重要的作用。
-
公开(公告)号:CN112287694A
公开(公告)日:2021-01-29
申请号:CN202010985908.8
申请日:2020-09-18
Applicant: 昆明理工大学
IPC: G06F40/58 , G06F40/126 , G06F40/242 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于共享编码器的汉越无监督神经机器翻译方法。本发明只使用汉语和越南语的单语语料,用无监督的方式进行训练。首先使用数字对齐作为种子词典训练汉越双语词嵌入。然后再将该双语词嵌入应用到共享编码器模型中,将汉语和越南语映射到同一语义空间,然后再分别使用解码器对越南语和汉语分别解码,实现基于共享编码器的汉越无监督神经机器翻译。本发明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势,并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。
-
公开(公告)号:CN111709245A
公开(公告)日:2020-09-25
申请号:CN202010366619.X
申请日:2020-04-30
Applicant: 昆明理工大学
IPC: G06F40/30 , G06F40/242 , G06F40/211 , G06F40/58 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于语义自适应编码的汉-越伪平行句对抽取方法,属自然语言处理领域。本发明首先构建汉语-越南语平行词典;利用汉语-越南语平行词典对段落级的可比语料库进行预筛选,得到汉语-越南语伪平行候选句子并将其输入到BiLSTM编码器;将BiLSTM编码器的输出作为深度语义自适应思考模块的输入;输出再作为语义相似性度量模块的输入;语义相似性度量模块的输出再输入到带sigmoid的前馈神经网络的预测模块中,计算它们平行的概率。本发明实现了汉语和越南语的上下文语义信息更深层次的表征,提取到了更高质量、噪声更小的汉-越伪平行句对,为后续的汉语到越南语的语义分析、信息检索和机器翻译等工作提供强有力的支撑。
-
公开(公告)号:CN111444343A
公开(公告)日:2020-07-24
申请号:CN202010212069.6
申请日:2020-03-24
Applicant: 昆明理工大学
IPC: G06F16/35 , G06F16/36 , G06F40/284 , G06F40/289
Abstract: 本发明涉及基于知识表示的跨境民族文化文本分类方法,属于自然语言处理技术领域。本发明包括步骤:获取若干本土及其跨境民族文化文本数据;本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练,利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。本发明在缺乏大量标记样本的情况下提升了跨境民族文化领域文本分类模型的性能。
-
公开(公告)号:CN110489766B
公开(公告)日:2020-07-10
申请号:CN201910676603.6
申请日:2019-07-25
Applicant: 昆明理工大学
Abstract: 本发明涉及基于编码归纳‑解码推敲的汉‑越低资源神经机器翻译方法,属于自然语言处理技术领域。本发明受人工翻译经验的启发,提出了一种“编码归纳‑解码推敲”框架的低资源神经机器翻译方法,本发明首先基于编码网络对源语言进行编码,并提出一种基于选择性门控的语义归纳方法,拟对源语言的语义进行理解和归纳;然后将源语言归纳后的语义信息用于目标语言解码推敲,拟实现目标语言的推敲解码。本发明针对当前汉‑越低资源机器翻译语料匮乏的现实情况,实现了编码器和解码器信息的充分利用,在提升汉‑越神经机器翻译的性能的基础上并保证了译文与原文的语义相似。
-
公开(公告)号:CN110489766A
公开(公告)日:2019-11-22
申请号:CN201910676603.6
申请日:2019-07-25
Applicant: 昆明理工大学
Abstract: 本发明涉及基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法,属于自然语言处理技术领域。本发明受人工翻译经验的启发,提出了一种“编码归纳-解码推敲”框架的低资源神经机器翻译方法,本发明首先基于编码网络对源语言进行编码,并提出一种基于选择性门控的语义归纳方法,拟对源语言的语义进行理解和归纳;然后将源语言归纳后的语义信息用于目标语言解码推敲,拟实现目标语言的推敲解码。本发明针对当前汉-越低资源机器翻译语料匮乏的现实情况,实现了编码器和解码器信息的充分利用,在提升汉-越神经机器翻译的性能的基础上并保证了译文与原文的语义相似。
-
公开(公告)号:CN110489750A
公开(公告)日:2019-11-22
申请号:CN201910739718.5
申请日:2019-08-12
Applicant: 昆明理工大学
Abstract: 本发明涉及基于双向LSTM-CRF的缅甸语分词及词性标注方法及装置,属于自然语言处理技术领域。本发明利用BERT生成基于音节切分的词向量表示;利用双向LSTM-CRF进行缅甸语分词任务预训练,得到缅甸语分词最优模型;利用双向LSTM-CRF进行缅甸语词性标注任务预训练,得到缅甸语词性标记最优模型;通过调用已训练好的分词或词性标注模型,对输入的向量化后的缅甸语句子进行分词、词性标记预测;根据上述步骤功能模块化制成基于双向LSTM-CRF的缅甸语分词及词性标注装置。本发明能实现了对缅甸语句子同时分词和词性标注,解决了缅甸语由于数据缺乏造成分词和标注不准确的问题。
-
公开(公告)号:CN110472252A
公开(公告)日:2019-11-19
申请号:CN201910751450.7
申请日:2019-08-15
Applicant: 昆明理工大学
Abstract: 本发明涉及基于迁移学习的汉越神经机器翻译的方法,属于自然语言处理技术领域。本发明包括步骤:语料收集与预处理:收集并预处理汉越、英越、汉英句对的平行语料;使用汉英和英越平行语料生成汉英越三语平行语料;训练汉英神经机器翻译模型与英越神经机器翻译模型,并使用预训练模型的参数初始化汉越神经机器翻译模型的参数;使用汉越平行语料对初始化后的汉越神经机器翻译模型进行微调训练,得到汉越神经机器翻译模型来进行汉越神经机器翻译。本发明能够有效地提升汉越神经机器翻译的性能。
-
公开(公告)号:CN119047457A
公开(公告)日:2024-11-29
申请号:CN202411519517.1
申请日:2024-10-29
Applicant: 昆明理工大学
IPC: G06F40/205 , G06F40/211 , G06F40/242 , G06F40/284 , G06F40/30 , G06F40/49 , G06N20/00 , G06N3/045 , G06N3/08
Abstract: 本发明涉及基于语言相似性增强的平行句对抽取方法及装置,属于自然语言处理技术领域。针对现有的平行句对抽取方法应用到中泰、中老任务时,泰语和老挝语训练数据稀缺导致模型对泰语和老挝语的表征能力弱、抽取效果不好的问题,提出了本发明,本发明主要包括融合语言增强特征的数据预处理、训练基于语言相似性增强的中老泰多语言平行句对抽取模型、中老泰多语言平行句对抽取三部分。根据这三个功能模块化制成基于语言相似性增强的平行句对抽取装置,从中泰及中老可比语料中抽取平行句对,本发明有效提升了中泰和中老平行句对抽取效果。
-
公开(公告)号:CN113627170B
公开(公告)日:2024-05-28
申请号:CN202110743043.9
申请日:2021-07-01
Applicant: 昆明理工大学
IPC: G06F40/284 , G06F40/295 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442
Abstract: 本发明涉及多特征融合的越南语关键词生成方法,属于自然语言处理领域。越南语关键词生成是针对越南语新闻文本进行关键词预测,得到高度概括新闻文本信息的关键词;本发明首先在编码过程中融合了词性信息、命名实体信息和位置信息。其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词。该方法在越南语关键词生成中取得了很好的效果,为后续的文本分类,信息检索提供了支撑。
-
-
-
-
-
-
-
-
-