-
公开(公告)号:CN104281564B
公开(公告)日:2017-08-08
申请号:CN201410394850.4
申请日:2014-08-12
Applicant: 中国科学院计算技术研究所 , 橙译中科信息技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种双语无监督句法分析方法及系统,该方法包括以下步骤:步骤1,在双语语料源端和目标端分别建立随机句法分析树库;步骤2,在该随机句法分析树库上通过计算单语无监督句法分析树的概率来单独训练单语无监督句法分析模型;步骤3,通过计算松弛同构相似度和双语句法分析算法对该单语无监督句法分析模型进行双语句法分析,得到最为满足松弛同构双语句法分析目标的双语句法分析树库,并用以替换该随机句法分析树库;步骤4,重复上述步骤1‑步骤3,直至该单语无监督句法分析模型收敛。由此,获得更好的单语无监督句法分析模型,以用于所有需要句法分析的下游应用中。
-
公开(公告)号:CN104281564A
公开(公告)日:2015-01-14
申请号:CN201410394850.4
申请日:2014-08-12
Applicant: 中国科学院计算技术研究所 , 橙译中科信息技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种双语无监督句法分析方法及系统,该方法包括以下步骤:步骤1,在双语语料源端和目标端分别建立随机句法分析树库;步骤2,在该随机句法分析树库上通过计算单语无监督句法分析树的概率来单独训练单语无监督句法分析模型;步骤3,通过计算松弛同构相似度和双语句法分析算法对该单语无监督句法分析模型进行双语句法分析,得到最为满足松弛同构双语句法分析目标的双语句法分析树库,并用以替换该随机句法分析树库;步骤4,重复上述步骤1-步骤3,直至该单语无监督句法分析模型收敛。由此,获得更好的单语无监督句法分析模型,以用于所有需要句法分析的下游应用中。
-
公开(公告)号:CN103577398B
公开(公告)日:2016-05-25
申请号:CN201310487641.X
申请日:2013-10-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
-
公开(公告)号:CN102760121B
公开(公告)日:2014-08-06
申请号:CN201210222936.X
申请日:2012-06-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。
-
公开(公告)号:CN102760121A
公开(公告)日:2012-10-31
申请号:CN201210222936.X
申请日:2012-06-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。
-
公开(公告)号:CN103577398A
公开(公告)日:2014-02-12
申请号:CN201310487641.X
申请日:2013-10-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
-
-
-
-
-