一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

    公开(公告)号:CN110362820B

    公开(公告)日:2022-11-01

    申请号:CN201910520523.1

    申请日:2019-06-17

    Abstract: 本发明公开了一种基于Bi‑LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子成分排序大致是一致的,所以先将篇章级的语料通过标点符号,处理为单个的对齐语句,之后将对齐的语句进行拆分,组成两个文本。这两个文本中包含一些非对齐的语句,之后将这些对齐的语句进行分词,分词之后,将两个文本组合为一个统一文本,因包含中文以及老挝语,以及是否为对齐的标志,作为训练数据,将得到的中文以及老挝语分词之后的句子作为Bi‑LSTM的输入,经过Bi‑LSTM的输出得到的结果,通过曼哈顿距离公式,计算两个句子的相似度,进而从篇章级的双语语料库中抽取出平行句对。

    一种基于BiLSTM+CRF模型的老挝语词性标注方法

    公开(公告)号:CN109558569A

    公开(公告)日:2019-04-02

    申请号:CN201811531266.3

    申请日:2018-12-14

    Abstract: 本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法,它属于自然语言处理和机器学习技术领域。BiLSTM是基于LSTM结构,BiLSTM可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中,BiLSTM通过计算可以输出句中每个词的词性概率分布,传统的做法可以挑选每个分布的最大概率词性,来作为词性标注结果。但这样没有考虑到词性之间的影响,比如:量词后不能接动词等。因此引入CRF模型来解决这个问题,可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。

    一种基于叠层组合分类器的老挝语基本名词短语识别方法

    公开(公告)号:CN110362821A

    公开(公告)日:2019-10-22

    申请号:CN201910520748.7

    申请日:2019-06-17

    Abstract: 本发明公开了一种基于叠层组合分类器的老挝语基本名词短语识别方法,属于自然语言处理领域,是自然语言处理中一项基础的业务,本发明主要融合了老挝语语言学特征到算法模型中,选择了组合分类器的方法,提高识别精度,选用的算法模型为CRF+SVM。首先使用CRF、SVM正向和SVM逆向三种识别模型分别进行标注,获得3份不同的预测结果,与原数据集一同构成新的数据集合,然后选择对序列标注性能最高的模型作为上层分类算法,最后使用新的数据集合,以词、词性和3种模型分类结果作特征,送往上层模型,并将其识别结果作为最终结果。本发明在老挝语基本名词短语识别上准确率较高,具有一定的研究意义。

    基于卷积神经网络的老挝语印刷体文本光学字符识别方法

    公开(公告)号:CN109993162A

    公开(公告)日:2019-07-09

    申请号:CN201910156076.6

    申请日:2019-03-01

    Abstract: 本发明公开了一种基于卷积神经网络的老挝语印刷体文本光学字符识别方法,属于自然语言处理和机器学习技术领域。本发明在输入印刷体文本扫描图片后,首先对图像进行二值化处理,并进行旋转矫正。然后因为老挝文为从左至右书写的横排元音附标文字,因此将预处理过的图像通过投影直方图法,按照先行后列的顺序,对整页字符进行切割,切分成老挝文字符组合。然后将切分出的老挝文字符输入针对老挝语特征建立的四路并行卷积神经网络模型中,输出对应的字符文本。最后按照老挝语语言规则对字符文本序列进行后处理,产生最终文本输出。本发明在老挝语字符识别及纸质资料数字化处理上有一定的应用价值。

    一种老挝语文本主题分类方法

    公开(公告)号:CN109299357A

    公开(公告)日:2019-02-01

    申请号:CN201811017181.3

    申请日:2018-08-31

    Abstract: 本发明公开了一种老挝语文本主题分类方法,属于自然语言处理和机器学习技术领域。本发明结合了N-gram语言特征提取模型与朴素贝叶斯数学模型实现对老挝文章主题识别,在一定程度上消除了朴素贝叶斯的局限性。它认为条件独立假设,将文本看成是词袋子模型,不考虑词语之间的顺序信息,同时使用的unigram与bigram特征模型,提高了文本的识别率。

    一种基于字符提取老挝语词特征的方法

    公开(公告)号:CN110347826A

    公开(公告)日:2019-10-18

    申请号:CN201910520531.6

    申请日:2019-06-17

    Abstract: 本发明涉及一种基于字符提取老挝语词特征的方法,属于自然语言处理和机器学习技术领域。由于老挝语料少,老挝语形态结构复杂,导致词稀疏,未登录词多。一般传统的NLP技术是基于词或词跟字符的结合构成输入模型向量。应用在老挝语中,存在词特征难以提取,无未登录词向量的问题。为了解决这些问题,本文提出基于字符向量,利用卷积神经网络提取字符向量的方法。基于字符向量的好处是不需要使用预训练好的词向量等信息。本文可以有效的提取老挝语词特征,因此本发明具有一定的研究意义。

    基于CNN+BLSTM+CRF的老挝语复杂人名地名实体识别方法

    公开(公告)号:CN110110042A

    公开(公告)日:2019-08-09

    申请号:CN201910215245.9

    申请日:2019-03-21

    Abstract: 本发明公开了一种基于CNN+BLSTM+CRF的老挝语复杂人名地名实体识别方法。本发明主要融合了老挝语语言学特征到算法模型中,在模型的使用中选择了多种模型融合的方法,提高识别精度,选用的算法模型为CNN+BLSTM+CRF。首先利用CNN将老挝语每个词的字符作为输入,输出特定长度的字符级特征向量。之后将老挝语词语作为输入到BLSTM中,输出和字符级特征向量长度一致的具有上下文语义特征的词向量,将字符级特征向量和词向量组合成完整特征向量。在此基础上将多条老挝语复杂人名地名构词特征融合到CRF算法中,用于提升老挝语复杂人名地名实体词的识别精度。本发明在老挝语复杂人名地名实体词识别上准确率有了提升。

    一种基于Attention机制来构建老挝语词性标注模型的方法

    公开(公告)号:CN109753652A

    公开(公告)日:2019-05-14

    申请号:CN201811532384.6

    申请日:2018-12-14

    Abstract: 本发明涉及一种基于Attention机制来构建老挝语词性标注模型的方法,属于自然语言处理和机器学习技术领域。Attention机制包括编码层与解码层,编码层对输入序列进行编码,以得到包含输入序列信息的语义向量,并将语义向量传送给解码层,解码层进行相应解码。以词性标注为例:首先将老挝句子输入编码层进行编码,以得到包含该句子信息的语义向量,然后将语义向量传入解码层,解码层可以解码出句中每个老挝词的词性。老挝语词性标注模型的实现过程中,首先得构建Attention机制,然后使用老挝语词性标注语料训练Attention机制,就可以得到基于Attention机制的老挝词性标注模型。利用Attention机制建立的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。

    一种老挝语文本主题分类方法

    公开(公告)号:CN109299357B

    公开(公告)日:2022-04-12

    申请号:CN201811017181.3

    申请日:2018-08-31

    Abstract: 本发明公开了一种老挝语文本主题分类方法,属于自然语言处理和机器学习技术领域。本发明结合了N‑gram语言特征提取模型与朴素贝叶斯数学模型实现对老挝文章主题识别,在一定程度上消除了朴素贝叶斯的局限性。它认为条件独立假设,将文本看成是词袋子模型,不考虑词语之间的顺序信息,同时使用的unigram与bigram特征模型,提高了文本的识别率。

    一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

    公开(公告)号:CN110362820A

    公开(公告)日:2019-10-22

    申请号:CN201910520523.1

    申请日:2019-06-17

    Abstract: 本发明公开了一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子成分排序大致是一致的,所以先将篇章级的语料通过标点符号,处理为单个的对齐语句,之后将对齐的语句进行拆分,组成两个文本。这两个文本中包含一些非对齐的语句,之后将这些对齐的语句进行分词,分词之后,将两个文本组合为一个统一文本,因包含中文以及老挝语,以及是否为对齐的标志,作为训练数据,将得到的中文以及老挝语分词之后的句子作为Bi-LSTM的输入,经过Bi-LSTM的输出得到的结果,通过曼哈顿距离公式,计算两个句子的相似度,进而从篇章级的双语语料库中抽取出平行句对。

Patent Agency Ranking