一种双语联合语义角色的标注方法

    公开(公告)号:CN101908042B

    公开(公告)日:2016-04-13

    申请号:CN201010248198.7

    申请日:2010-08-09

    Inventor: 宗成庆 庄涛

    Abstract: 本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。

    基于双语篇章结构信息的译文篇章完整性评估方法

    公开(公告)号:CN104915337A

    公开(公告)日:2015-09-16

    申请号:CN201510340623.8

    申请日:2015-06-18

    Inventor: 周玉 涂眉 宗成庆

    Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。

    一种基于谓词论元结构的统计机器翻译方法

    公开(公告)号:CN103020045A

    公开(公告)日:2013-04-03

    申请号:CN201210534093.7

    申请日:2012-12-11

    Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。

    一种汉英短语翻译对自动抽取与过滤方法

    公开(公告)号:CN101482860B

    公开(公告)日:2010-12-01

    申请号:CN200810055782.3

    申请日:2008-01-09

    Inventor: 宗成庆 周玉

    Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。

    一种汉英短语翻译对自动抽取与过滤方法

    公开(公告)号:CN101482860A

    公开(公告)日:2009-07-15

    申请号:CN200810055782.3

    申请日:2008-01-09

    Inventor: 宗成庆 周玉

    Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。

    一种基于拒绝域的多生物特征认证融合方法

    公开(公告)号:CN101295361A

    公开(公告)日:2008-10-29

    申请号:CN200710098690.9

    申请日:2007-04-25

    Inventor: 宗成庆 李寿山

    Abstract: 本发明涉及模式识别领域,公开一种基于拒绝域的多生物特征认证融合方法,该方法和传统的多生物认证融合方法主要区别在于:传统的融合方法融合所有单个生物认证初始分类器分类结果,本发明将多生物特征匹配初始分类器生成多个组合分类器,训练每个组合分类器或初始分类器,设置每个组合分类器或初始分类器拒绝的匹配阈值,用于生成带拒绝域的分类器;把带拒绝域的分类器的分类结果用投票法进行融合。融合时,仅仅融合那些没有被带拒绝域分类器拒绝的结果。本发明的优势在于系统可以过滤掉分类器的错误分类结果给整个系统带来的噪音,从而大大提高了生物认证的正确率,为多生物认证的实用化提供了一种很好的融合算法。

    一种机器翻译模板自动获取方法及装置

    公开(公告)号:CN1801140A

    公开(公告)日:2006-07-12

    申请号:CN200410101877.6

    申请日:2004-12-30

    Inventor: 宗成庆 胡日勒

    Abstract: 本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。

    基于统计模型的口语解析方法

    公开(公告)号:CN1570921A

    公开(公告)日:2005-01-26

    申请号:CN03147549.3

    申请日:2003-07-22

    Inventor: 宗成庆 解国栋

    Abstract: 一种基于统计模型的口语解析方法,包括步骤:语义表示定义;进行统计解析模型参数的训练;解析句子。本发明的特点是具有较高的鲁棒性,能够较好的处理口语中存在的非规范语言现象。另外,采用统计解析方法,能够快速的实现解析系统在不同领域间的移植,这两个特点,使得这一技术能够很快的在不同领域实现产品化。

    融合多模态细粒度信息的视频机器翻译方法及装置

    公开(公告)号:CN119996762A

    公开(公告)日:2025-05-13

    申请号:CN202510043829.8

    申请日:2025-01-10

    Abstract: 本发明提供一种融合多模态细粒度信息的视频机器翻译方法及装置。该融合多模态细粒度信息的视频机器翻译方法应包括:对视频中的画面进行信息抽取,得到所述画面中的细粒度视觉信息,并对所述视频中的音频进行信息抽取,得到所述音频中的细粒度音频信息;将所述细粒度视觉信息与所述细粒度音频信息融合到源文本中,得到融合文本;所述源文本为所述视频中的待翻译字幕;将所述融合文本输入到机器翻译模型中得到目标翻译文本。本发明提供的融合多模态细粒度信息的视频机器翻译方法及装置,通过将视频的细粒度视觉信息和细粒度音频信息融合进源文本中,基于融合文本进行机器翻译,提高了翻译的准确性。

    多语言对话状态追踪模型的训练方法及装置

    公开(公告)号:CN117149987B

    公开(公告)日:2024-02-13

    申请号:CN202311426764.2

    申请日:2023-10-31

    Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。

Patent Agency Ranking