-
公开(公告)号:CN109508400B
公开(公告)日:2020-08-28
申请号:CN201811172666.X
申请日:2018-10-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06F16/36 , G06K9/62 , G06N3/04
Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。
-
公开(公告)号:CN109918646B
公开(公告)日:2020-08-11
申请号:CN201910089352.1
申请日:2019-01-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。
-
公开(公告)号:CN111401080A
公开(公告)日:2020-07-10
申请号:CN201811533465.8
申请日:2018-12-14
Applicant: 波音公司 , 中国科学院自动化研究所
Abstract: 本申请公开了神经机器翻译方法以及神经机器翻译装置。该神经机器翻译方法,包括:获取待翻译的源语句以及作为源语句的候选译文的目标语句,以形成原始训练语料,计算源语句中包含的每个单词的翻译熵;判断每个单词的翻译熵是否大于预定阈值;根据判断结果,将翻译熵大于预定阈值的单词确定为易漏翻的单词;将易漏翻的单词的候选译文替换为预先设定的字符,以形成新目标语句;根据源语句与新目标语句形成新训练语料;基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练,以及利用经参数训练的神经机器翻译模型执行机器翻译。
-
公开(公告)号:CN106997387B
公开(公告)日:2019-08-09
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN109213851A
公开(公告)日:2019-01-15
申请号:CN201810724523.9
申请日:2018-07-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
IPC: G06F16/332 , G06F17/28 , G06F17/27
Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。
-
公开(公告)号:CN104915337B
公开(公告)日:2017-12-05
申请号:CN201510340623.8
申请日:2015-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。
-
公开(公告)号:CN107015966A
公开(公告)日:2017-08-04
申请号:CN201710195609.2
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/271 , G06F17/2785 , G10L15/26
Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
-
公开(公告)号:CN101482861B
公开(公告)日:2011-06-01
申请号:CN200810055783.8
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。
-
-
-
-
-
-
-