一种基于动态融合机制的多模态词汇表示方法

    公开(公告)号:CN107480196A

    公开(公告)日:2017-12-15

    申请号:CN201710577334.9

    申请日:2017-07-14

    Abstract: 本发明的多模态词汇表示方法包括分别计算待表示词汇在文本模态中的文本表示向量、以及待表示词汇在视觉模态中的图片表示向量;将文本表示向量输入预先建立的文本模态权重模型,得到文本表示向量在文本模态中的权重;将图片表示向量输入预先建立的视觉模态权重模型,得到图片表示向量在图片模态中的权重;根据文本表示向量、图片表示向量以及分别与文本表示向量和图片表示向量对应的权重,计算得到多模态词汇表示向量。其中,文本模态权重模型为输入为文本表示向量、输出为文本表示向量在对应文本模态中的权重的神经网络模型;视觉模态权重模型为输入为图片表示向量、输出为图片表示向量在对应视觉模态中的权重的神经网络模型。

    面向计算机辅助翻译的输入方法与装置

    公开(公告)号:CN104462072B

    公开(公告)日:2017-09-26

    申请号:CN201410678005.X

    申请日:2014-11-21

    Inventor: 宗成庆 黄国平

    Abstract: 本发明是一种面向计算机辅助翻译的输入方法,包括步骤S1:对源语言句子进行分词;步骤S2:获得分词后的源语言句子对应的机器翻译译文候选列表和最优机器翻译译义候选;获得多元文法提示短语;步骤S3:响应按键选择多元文法提示短语或者接收输入按键序列,获得输入法短语候选;步骤S4:响应用户按键选择多元文法提示短语或者输入法短语候选后,获得多元文法提示短语,重复步骤S3,直到用户完成录入源语言句子的译文。本发明还提供面向计算机辅助翻译的输入装置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面。本发明充分利用机器翻译知识,能使按键节省率至少上升11.04%,大幅提升人工翻译的效率。

    人机交互翻译模型的更新方法及更新系统

    公开(公告)号:CN107066451A

    公开(公告)日:2017-08-18

    申请号:CN201611170954.2

    申请日:2016-12-16

    CPC classification number: G06F17/277 G06F17/2775 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。

    多语言自动文摘方法
    104.
    发明公开

    公开(公告)号:CN106874362A

    公开(公告)日:2017-06-20

    申请号:CN201611253245.0

    申请日:2016-12-30

    Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。

    同时识别双语术语与词对齐的实现方法及实现系统

    公开(公告)号:CN106649289A

    公开(公告)日:2017-05-10

    申请号:CN201611170300.X

    申请日:2016-12-16

    CPC classification number: G06F17/2827 G06F17/2818 G06F2216/03

    Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。

    一种基于谓词论元结构的统计机器翻译方法

    公开(公告)号:CN103020045B

    公开(公告)日:2015-05-13

    申请号:CN201210534093.7

    申请日:2012-12-11

    Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

    一种拼音和汉字相结合的汉外口语自动翻译方法

    公开(公告)号:CN101788978B

    公开(公告)日:2011-12-07

    申请号:CN200910244513.6

    申请日:2009-12-30

    Inventor: 周玉 宗成庆

    Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。

    一种基于语块的中文机构名翻译方法及装置

    公开(公告)号:CN101075230B

    公开(公告)日:2011-11-16

    申请号:CN200610011923.2

    申请日:2006-05-18

    Inventor: 宗成庆 陈钰枫

    Abstract: 本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的整体性能相对提高约13.3%。

    一种双语联合语义角色的标注方法

    公开(公告)号:CN101908042A

    公开(公告)日:2010-12-08

    申请号:CN201010248198.7

    申请日:2010-08-09

    Inventor: 宗成庆 庄涛

    Abstract: 本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。

    一种拼音和汉字相结合的汉外口语自动翻译方法

    公开(公告)号:CN101788978A

    公开(公告)日:2010-07-28

    申请号:CN200910244513.6

    申请日:2009-12-30

    Inventor: 周玉 宗成庆

    Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。

Patent Agency Ranking