-
公开(公告)号:CN106021224A
公开(公告)日:2016-10-12
申请号:CN201610317745.X
申请日:2016-05-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/289
Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
-
公开(公告)号:CN103235775B
公开(公告)日:2016-06-29
申请号:CN201310148826.8
申请日:2013-04-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:步骤1:利用训练集得到双语短语切分句对;步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;步骤3、融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。其是一种在传统短语翻译模型的基础上充分且恰当地挖掘翻译记忆提供的信息以提高统计机器翻译译文质量的方法。
-
公开(公告)号:CN102117270B
公开(公告)日:2016-01-20
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN102662932B
公开(公告)日:2014-05-14
申请号:CN201210068782.3
申请日:2012-03-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法,所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、词性标注和词对齐;根据所述词对齐的结果,对所述双语句子对进行双语切分,生成比双语句子对长度更短的双语子句对,并对生成的所述双语子句对重新进行词对齐;根据所述双语子句对词对齐的结果,进行子句合并以获得所述双语句子对的词对齐,并为所述双语句子对构造压缩森林;从所述压缩森林中选择适合于机器翻译的树结构。本发明无需任何句法树资源,只要有词性标注资源的语言对,就可以构建基于树结构的翻译系统。
-
公开(公告)号:CN103235775A
公开(公告)日:2013-08-07
申请号:CN201310148826.8
申请日:2013-04-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:步骤1:利用训练集得到双语短语切分句对;步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;步骤3:融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。其是一种在传统短语翻译模型的基础上充分且恰当地挖掘翻译记忆提供的信息以提高统计机器翻译译文质量的方法。
-
公开(公告)号:CN102117270A
公开(公告)日:2011-07-06
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN101482861B
公开(公告)日:2011-06-01
申请号:CN200810055783.8
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。
-
公开(公告)号:CN100424685C
公开(公告)日:2008-10-08
申请号:CN200510086370.2
申请日:2005-09-08
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句和短语之间的句法关系以及子句和短语内部的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的常用一遍句法分析相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
-
公开(公告)号:CN100353361C
公开(公告)日:2007-12-05
申请号:CN200410062789.X
申请日:2004-07-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/21
Abstract: 本发明涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中,TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频,同时又无法表示出向量元素在类别之间分布的不均衡性。这里,我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点,充分证明了它的有效性。
-
公开(公告)号:CN1949211A
公开(公告)日:2007-04-18
申请号:CN200510109335.8
申请日:2005-10-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,是一种新的汉语口语解析装置。本发明设计一种基于统计和规则相结合方法的口语解析装置,利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,获得每个词语对应的一种或多种语义及其概率,最后利用统计解析模型对语义分类树的解析结果进行选择和组合,从而获得整个句子的领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义解析。
-
-
-
-
-
-
-
-
-