-
公开(公告)号:CN106844352B
公开(公告)日:2019-11-08
申请号:CN201611209226.8
申请日:2016-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。
-
公开(公告)号:CN106997387B
公开(公告)日:2019-08-09
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN109213851A
公开(公告)日:2019-01-15
申请号:CN201810724523.9
申请日:2018-07-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
IPC: G06F16/332 , G06F17/28 , G06F17/27
Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。
-
公开(公告)号:CN108984520A
公开(公告)日:2018-12-11
申请号:CN201810629577.7
申请日:2018-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语言处理技术领域,并提出了一种层次化文本主题分割方法,旨在解决在文本主题分割中,忽视文本整体结构,无法利用层次化文本结构信息进行主题分割的技术问题。为此目的,本发明中的层次化文本主题分割方法包括:根据预设的标点符号对待分割文本进行切分,得到包含多个句子的句子集合;利用预先构建的词向量生成上述句子集合中每个句子对应的句向量;按照上述每个句子在上述待分割文本中出现的顺序,依次根据每个句子对应的句向量对预设的子主题向量进行更新;利用更新后的子主题向量计算在每个句子处进行主题分割的概率,并根据上述概率选择性地分割上述待分割文本。本发明可以快速、准确的对文本进行层次化分割。
-
公开(公告)号:CN108763211A
公开(公告)日:2018-11-06
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN104915337B
公开(公告)日:2017-12-05
申请号:CN201510340623.8
申请日:2015-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。
-
公开(公告)号:CN107015966A
公开(公告)日:2017-08-04
申请号:CN201710195609.2
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/271 , G06F17/2785 , G10L15/26
Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
-
公开(公告)号:CN106021224A
公开(公告)日:2016-10-12
申请号:CN201610317745.X
申请日:2016-05-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/289
Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
-
公开(公告)号:CN103235775B
公开(公告)日:2016-06-29
申请号:CN201310148826.8
申请日:2013-04-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:步骤1:利用训练集得到双语短语切分句对;步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;步骤3、融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。其是一种在传统短语翻译模型的基础上充分且恰当地挖掘翻译记忆提供的信息以提高统计机器翻译译文质量的方法。
-
公开(公告)号:CN102117270B
公开(公告)日:2016-01-20
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
-
-
-
-
-
-
-
-