一种基于依存句法树的翻译规则抽取方法和翻译方法

    公开(公告)号:CN102799578A

    公开(公告)日:2012-11-28

    申请号:CN201210227973.X

    申请日:2012-07-02

    Inventor: 谢军 米海涛 刘群

    Abstract: 本发明提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。

    统计机器解码特征权重的训练方法和解码方法

    公开(公告)号:CN101989260A

    公开(公告)日:2011-03-23

    申请号:CN200910164808.2

    申请日:2009-08-01

    Abstract: 本发明提供一种统计机器解码方法,包括下列步骤:1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上,进行联合解码,从所述联合解码所获得的多个最优译文中选择最终译文。根据上述方法进行统计机器解码,缓解了单解码器和系统融合的局限性,并且提高了译文翻译的准确性。

    基于树到树翻译模型的翻译规则抽取方法和翻译方法

    公开(公告)号:CN101989257A

    公开(公告)日:2011-03-23

    申请号:CN200910090202.9

    申请日:2009-07-31

    Abstract: 本发明提供一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤:1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。根据该翻译规则进行测试语料的翻译,有效提高了翻译质量。

    一种目标场所优化调度方法及系统

    公开(公告)号:CN100595121C

    公开(公告)日:2010-03-24

    申请号:CN200710179079.9

    申请日:2007-12-10

    Abstract: 本发明公开了一种目标场所优化调度方法及系统。该方法包括下列步骤:采集目标场所相应目标对应的正例样本集合和反例样本集合;在正例样本集合和反例样本集合中,提取图像特征并进行训练,得到用于目标场所目标检测的分类器;从获取的目标场所的实时视频图像中,利用分类器检测出目标,对目标场所进行优化调度。将从目标场所获取的实时视频图像检测出的目标所在区域作为正例样本,重复训练,进一步提高分类器的分类精确度。其对目标场所进行优化调度,提高目标场所的工作效率。

    一种机器翻译自动评测方法及其系统

    公开(公告)号:CN100555270C

    公开(公告)日:2009-10-28

    申请号:CN200410000628.8

    申请日:2004-01-13

    Inventor: 刘群 刘洋

    Abstract: 本发明公开了一种机器翻译自动评测方法及其系统。该方法在至少一篇参考译文中查找机器翻译系统的输出译文的匹配子片断,然后根据这些匹配子片断及其长度计算熵,以及计算长度惩罚系数和匹配比例惩罚系数,最后获得一个评分作为评价指标。本发明的机器翻译自动评测系统包括子片断搜索模块、长度计算模块、长度惩罚模块、匹配比例惩罚模块和评测得分计算模块。本发明的机器翻译自动评测方法及其系统可以准确评价译文质量,并且能够成生一个具有绝对意义的评价指标,而且在进行自动评测时不限制匹配子片断的长度。

    基于线性模型的汉语词法分析方法

    公开(公告)号:CN101295295A

    公开(公告)日:2008-10-29

    申请号:CN200810114950.1

    申请日:2008-06-13

    Abstract: 本发明提供一种基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度;2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。本发明能够显著地提高了切分和标注的精确度。

    一种统计机器翻译方法和系统

    公开(公告)号:CN101290616A

    公开(公告)日:2008-10-22

    申请号:CN200810114735.1

    申请日:2008-06-11

    Abstract: 本发明公开了一种统计机器翻译方法和系统,其中该方法包括下列步骤:1)对源语言句进行短语划分,根据划分的短语从双语短语表中检索双语短语;2)检查划分的短语与双语短语匹配程度,如果完全匹配将双语短语加入候选短语表,执行步骤4),如果部分匹配,执行步骤3);3)根据划分的短语和双语短语构造翻译模板,把划分的短语与双语短语不同的词语翻译填入翻译模板,生成新双语短语,并加入所述候选短语表;4)根据候选短语表翻译所述待翻译源语言句。本发明能够在双语语料受限的情况下有效的提高翻译质量,解决了统计机器翻译系统面临的数据稀疏问题。

    一种重复性视频音频节目片段的检测方法和系统

    公开(公告)号:CN101159834A

    公开(公告)日:2008-04-09

    申请号:CN200710176354.1

    申请日:2007-10-25

    Abstract: 本发明公开了一种重复性视频音频节目片段的检测方法和系统。该方法包括下列步骤:将待检测的视频音频节目片段中的音频流进行分割得到音频流片段,并从每一音频流片段中提取音频特征;在视频音频节目流中检测与音频流片段匹配的具有重复性的视频音频节目片段的音频序列,得到重复性视频音频节目片段;对初步得到重复性视频音频节目片段,利用细粒度的音频匹配来精确地定位重复性视频音频节目片段的起始和结束时间点;对精确地定位的重复性视频音频节目片段,使用基于序列的方法对匹配对进行合并,得到完整的重复性视频音频节目片段。其能够更准确、高效地检测出视频音频节目中的特定视频音频节目片段。

    一种统计机器翻译中的在线翻译模型选择方法

    公开(公告)号:CN101079028A

    公开(公告)日:2007-11-28

    申请号:CN200710099724.6

    申请日:2007-05-29

    Inventor: 吕雅娟 刘群 黄瑾

    Abstract: 本发明公开了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,训练阶段包括:收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中;为子语料库训练候选翻译模型;为子语料库建立索引,得到语料库索引文件;翻译阶段包括:输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子;根据检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;根据最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量。

    基于依存树的统计机器翻译方法及系统

    公开(公告)号:CN104239290B

    公开(公告)日:2017-02-15

    申请号:CN201410389422.2

    申请日:2014-08-08

    Abstract: 本发明提供一种基于依存边转换的统计机器翻译方法,根据从双语语料库中抽取的转换规则,将源语言句子的依存树中每条依存边转换为对应的目标语言短语依存边,并对所得到的目标语言短语依存边进行拼接,以生成目标语言端译文。该方法结合依存句法模型的优势,但采用分析-转换-生成的模式将翻译过程拆解成了三个阶段,可以对三个过程分别独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。该采用基于依存边的转换保留了更多的知识,可以容忍更高程度的句法非同构现象,而且取得超过当前主流的基于短语模型翻译的方法的性能。

Patent Agency Ranking