-
公开(公告)号:CN108536735A
公开(公告)日:2018-09-14
申请号:CN201810178559.1
申请日:2018-03-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统,目的在于提高表示结果的准确性。本发明的词汇表示方法,先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量;对于没有视觉模态和音频模态的词汇,利用训练好的映射模型去预测缺失的视觉向量以及听觉向量;再计算上述三种向量与对应模态权重的点积;最后将上述加权后的向量作为多通道自编码器模型的输入,对三种模态的信息进行融合,得到多模态的词汇表示向量。本发明利用不同模态间的相关性,融合不同模态的信息,并引入模态权重,有效提高了词汇表示的准确度。为了对不同模态进行更好的融合,还加入了联想词汇预测模块。
-
公开(公告)号:CN107943795A
公开(公告)日:2018-04-20
申请号:CN201711123864.2
申请日:2017-11-14
Applicant: 中国科学院自动化研究所 , 波音(中国)投资有限公司
Abstract: 本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。
-
公开(公告)号:CN106844332A
公开(公告)日:2017-06-13
申请号:CN201611169586.X
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/289
Abstract: 本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐系统,所述对齐方法包括:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;根据源语言词组和目标语言词组确定探测锚点集合;根据探测锚点集合,进行双语短语切分,得到双语短语切分候选集合;根据双语短语切分候选集合和词对齐模型,确定源语言词组和目标语言词组的对齐双语词;将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率,提高最终的机器翻译译文质量。
-
公开(公告)号:CN101908042B
公开(公告)日:2016-04-13
申请号:CN201010248198.7
申请日:2010-08-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。
-
公开(公告)号:CN104915337A
公开(公告)日:2015-09-16
申请号:CN201510340623.8
申请日:2015-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。
-
公开(公告)号:CN103020045A
公开(公告)日:2013-04-03
申请号:CN201210534093.7
申请日:2012-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
-
公开(公告)号:CN101482860B
公开(公告)日:2010-12-01
申请号:CN200810055782.3
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。
-
公开(公告)号:CN101482860A
公开(公告)日:2009-07-15
申请号:CN200810055782.3
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。
-
公开(公告)号:CN101295361A
公开(公告)日:2008-10-29
申请号:CN200710098690.9
申请日:2007-04-25
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明涉及模式识别领域,公开一种基于拒绝域的多生物特征认证融合方法,该方法和传统的多生物认证融合方法主要区别在于:传统的融合方法融合所有单个生物认证初始分类器分类结果,本发明将多生物特征匹配初始分类器生成多个组合分类器,训练每个组合分类器或初始分类器,设置每个组合分类器或初始分类器拒绝的匹配阈值,用于生成带拒绝域的分类器;把带拒绝域的分类器的分类结果用投票法进行融合。融合时,仅仅融合那些没有被带拒绝域分类器拒绝的结果。本发明的优势在于系统可以过滤掉分类器的错误分类结果给整个系统带来的噪音,从而大大提高了生物认证的正确率,为多生物认证的实用化提供了一种很好的融合算法。
-
公开(公告)号:CN1801140A
公开(公告)日:2006-07-12
申请号:CN200410101877.6
申请日:2004-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。
-
-
-
-
-
-
-
-
-