-
公开(公告)号:CN108763211B
公开(公告)日:2020-07-31
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN109033073B
公开(公告)日:2020-07-28
申请号:CN201810688172.0
申请日:2018-06-28
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/279 , G06F16/33 , G06N3/08
Abstract: 本发明属于自然语言处理技术领域,具体提供了一种文本蕴含识别方法及装置。旨在解决现有技术需要对句子进行复杂的特征描述和特征提取的问题。本发明的文本蕴含识别方法包括对待识别文本蕴含句对的源句子和目标句子进行依存句法分析,并根据分析结果获取源句子依存三元组集合和目标句子依存三元组集合;对源句子依存三元组集合和目标句子依存三元组集合进行语义关系比较,得到比较结果;根据比较结果预测源句子和目标句子之间的语义蕴含关系。本发明的方法可以从整体角度提升句子之间的比较精度,并且提升句子的依存三元组之间的对齐精度,进而提高语义蕴含关系预测的准确率。本发明的装置同样具有上述有益效果。
-
公开(公告)号:CN111401080A
公开(公告)日:2020-07-10
申请号:CN201811533465.8
申请日:2018-12-14
Applicant: 波音公司 , 中国科学院自动化研究所
Abstract: 本申请公开了神经机器翻译方法以及神经机器翻译装置。该神经机器翻译方法,包括:获取待翻译的源语句以及作为源语句的候选译文的目标语句,以形成原始训练语料,计算源语句中包含的每个单词的翻译熵;判断每个单词的翻译熵是否大于预定阈值;根据判断结果,将翻译熵大于预定阈值的单词确定为易漏翻的单词;将易漏翻的单词的候选译文替换为预先设定的字符,以形成新目标语句;根据源语句与新目标语句形成新训练语料;基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练,以及利用经参数训练的神经机器翻译模型执行机器翻译。
-
公开(公告)号:CN106844352B
公开(公告)日:2019-11-08
申请号:CN201611209226.8
申请日:2016-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。
-
公开(公告)号:CN106997387B
公开(公告)日:2019-08-09
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN109213851A
公开(公告)日:2019-01-15
申请号:CN201810724523.9
申请日:2018-07-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
IPC: G06F16/332 , G06F17/28 , G06F17/27
Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。
-
公开(公告)号:CN108984520A
公开(公告)日:2018-12-11
申请号:CN201810629577.7
申请日:2018-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语言处理技术领域,并提出了一种层次化文本主题分割方法,旨在解决在文本主题分割中,忽视文本整体结构,无法利用层次化文本结构信息进行主题分割的技术问题。为此目的,本发明中的层次化文本主题分割方法包括:根据预设的标点符号对待分割文本进行切分,得到包含多个句子的句子集合;利用预先构建的词向量生成上述句子集合中每个句子对应的句向量;按照上述每个句子在上述待分割文本中出现的顺序,依次根据每个句子对应的句向量对预设的子主题向量进行更新;利用更新后的子主题向量计算在每个句子处进行主题分割的概率,并根据上述概率选择性地分割上述待分割文本。本发明可以快速、准确的对文本进行层次化分割。
-
公开(公告)号:CN108763211A
公开(公告)日:2018-11-06
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN104915337B
公开(公告)日:2017-12-05
申请号:CN201510340623.8
申请日:2015-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。
-
公开(公告)号:CN107015966A
公开(公告)日:2017-08-04
申请号:CN201710195609.2
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/271 , G06F17/2785 , G10L15/26
Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
-
-
-
-
-
-
-
-
-