-
公开(公告)号:CN112287688A
公开(公告)日:2021-01-29
申请号:CN202010980757.7
申请日:2020-09-17
Applicant: 昆明理工大学
IPC: G06F40/30 , G06F40/289 , G06F40/284 , G06F40/205 , G06F16/35 , G06F16/951
Abstract: 本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明包括步骤:数据预处理构建英‑缅平行句对数据集;利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型;收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判,为开展英‑缅神经机器翻译研究工作提供了数据支撑。
-
公开(公告)号:CN113627150A
公开(公告)日:2021-11-09
申请号:CN202110743036.9
申请日:2021-07-01
Applicant: 昆明理工大学
IPC: G06F40/211 , G06F40/242 , G06F40/284 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理,将泰语中的子词和词语基于音标进行替换,得到泰语、老挝语句子的统一表示,然后,基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上,最后,利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上,从而达到提升汉语‑老挝语句对抽取模型性能目的,具有重要的理论和实际应用价值。
-
公开(公告)号:CN113627150B
公开(公告)日:2022-12-20
申请号:CN202110743036.9
申请日:2021-07-01
Applicant: 昆明理工大学
IPC: G06F40/211 , G06F40/242 , G06F40/284 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理,将泰语中的子词和词语基于音标进行替换,得到泰语、老挝语句子的统一表示,然后,基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上,最后,利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上,从而达到提升汉语‑老挝语句对抽取模型性能目的,具有重要的理论和实际应用价值。
-
公开(公告)号:CN112287688B
公开(公告)日:2022-02-11
申请号:CN202010980757.7
申请日:2020-09-17
Applicant: 昆明理工大学
IPC: G06F40/30 , G06F40/289 , G06F40/284 , G06F40/205 , G06F16/35 , G06F16/951
Abstract: 本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明包括步骤:数据预处理构建英‑缅平行句对数据集;利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型;收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判,为开展英‑缅神经机器翻译研究工作提供了数据支撑。
-
公开(公告)号:CN110489750A
公开(公告)日:2019-11-22
申请号:CN201910739718.5
申请日:2019-08-12
Applicant: 昆明理工大学
Abstract: 本发明涉及基于双向LSTM-CRF的缅甸语分词及词性标注方法及装置,属于自然语言处理技术领域。本发明利用BERT生成基于音节切分的词向量表示;利用双向LSTM-CRF进行缅甸语分词任务预训练,得到缅甸语分词最优模型;利用双向LSTM-CRF进行缅甸语词性标注任务预训练,得到缅甸语词性标记最优模型;通过调用已训练好的分词或词性标注模型,对输入的向量化后的缅甸语句子进行分词、词性标记预测;根据上述步骤功能模块化制成基于双向LSTM-CRF的缅甸语分词及词性标注装置。本发明能实现了对缅甸语句子同时分词和词性标注,解决了缅甸语由于数据缺乏造成分词和标注不准确的问题。
-
公开(公告)号:CN110705253A
公开(公告)日:2020-01-17
申请号:CN201910808117.5
申请日:2019-08-29
Applicant: 昆明理工大学
IPC: G06F40/211 , G06F40/30 , G06F16/35 , G06N3/04
Abstract: 本发明涉及基于迁移学习的缅甸语依存句法分析方法及装置,属于自然语言处理技术领域。本发明首先对缅甸语数据进行预处理:进行英缅双语词向量表征,将双语词向量表征在同一语义空间中;英语依存句法分析语料的迁移:将英语的依存弧、位置以及词性信息迁移到缅甸语上,进行缅甸语的依存句法分析模型训练,获得缅甸语的依存句法分析模型;通过预训练好的缅甸语依存句法分析模型,对输入的缅甸语句子向量化表示后进行缅甸语依存句法分析预测。并根据上述步骤功能模块化制成基于迁移学习的缅甸语依存句法分析装置,本发明对缅甸语句子实现了依存句法分析,解决了缅甸语依存句法分析数据缺乏造成性能不佳的问题,具有重要的理论和实际运用价值。
-
公开(公告)号:CN109992770A
公开(公告)日:2019-07-09
申请号:CN201910159512.5
申请日:2019-03-04
Applicant: 昆明理工大学
Abstract: 本发明公开了一种基于组合神经网络的老挝语命名实体识别方法,属于自然语言处理中小语种识别领域。首先利用Bi‑LSTM(双向长短期记忆模型)将老挝语句子序列进行编码,输出字符向量。之后将字符向量进行切片分段,输入到Bi‑RNN(双向循环神经网络)模型中,获得片段内部单元的信息表示向量。在此基础上使用lookup操作获取片段的整体向量表示,然后将获得的片段信息表示向量、整体向量、其他特征向量拼接作为特征输入到神经网络模型中,进行老挝语命名实体识别训练。本发明识别效果明显优于传统统计学习方法,并获得与当前其他最优的老挝语命名实体识别系统相当的识别性能。
-
-
-
-
-
-