使用多通道融合模型处理答案的神经问题生成方法及系统

    公开(公告)号:CN111797219A

    公开(公告)日:2020-10-20

    申请号:CN202010646758.8

    申请日:2020-07-07

    Applicant: 苏州大学

    Inventor: 熊德意 邱嘉作

    Abstract: 本发明涉及一种使用多通道融合模型处理答案的神经问题生成方法及系统,包括:根据文档单词和答案单词的关系,分别计算硬匹配和软匹配的答案匹配编码,结合词嵌入向量,得到文档中每个单词最终的单词编码;对文档进行编码形成文档的隐层表示,对答案进行编码形成答案的隐层表示,将所述单词编码输入至注意力机制中,对文档的隐层表示和答案的隐层表示之间的关系进行建模,将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示;根据所述最终文档表示得到文档的上下文向量,根据所述答案的隐层表示得到答案的上下文向量,根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。本发明可以将答案直接从文档中找到。

    将句子权重融入神经机器翻译的领域适应方法

    公开(公告)号:CN108460028A

    公开(公告)日:2018-08-28

    申请号:CN201810325818.9

    申请日:2018-04-12

    Applicant: 苏州大学

    Inventor: 熊德意 张诗奇

    Abstract: 本发明涉及一种将句子权重融入神经机器翻译的领域适应方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:计算out-of-domain句子与in-domain语料的相似度来赋予句子权重;将所述句子权重信息融入NMT训练。上述将句子权重融入神经机器翻译的领域适应方法,我们利用NMTencoder的自身信息用领域相似度的方法得到权重,并将权重融入NMT训练。这种新方法比论文“Instance weighting for neural machine translation domain adaptation”中的方法能取得更好的翻译效果。

    一种教材知识点的挖掘整理方法和系统

    公开(公告)号:CN106156335A

    公开(公告)日:2016-11-23

    申请号:CN201610532253.2

    申请日:2016-07-07

    Applicant: 苏州大学

    Inventor: 熊德意 奚浏

    CPC classification number: G06F16/335 G06F16/9535 G06F17/277

    Abstract: 本申请公开了一种教材知识点的挖掘整理方法和系统,具体为以预设的关键词为切入点获取与所述关键词相关的教材资源;对所述教材资源进行整理加工,去除其中的多余信息,得到与所述关键词相关的教材文本文件;利用自然语言处理工具对所述教材文本文件进行词性分析;利用术语抽取工具对所述教材文本文件进行知识点抽取,抽取到与所述关键词紧密相关的多个教材知识点;从多个知识点中去除与所述关键词相关性不高的部分教材知识点,将剩余的部分教材知识点形成教材知识点合集。本技术方案使学习者无需从浩如烟海的教学资源中盲目地查找有用的信息,能够帮助学习者快速地获取到有用的教材知识点集合,避免因大量无关信息的干扰而降低学习效率。

    面向神经机器翻译的长句切分方法及装置

    公开(公告)号:CN105912533A

    公开(公告)日:2016-08-31

    申请号:CN201610224531.8

    申请日:2016-04-12

    Applicant: 苏州大学

    Inventor: 熊德意 邝少辉

    CPC classification number: G06F17/289 G06F17/24 G06F17/271

    Abstract: 本申请提供了一种面向神经机器翻译的长句切分方法,在使用NMT模型进行语句翻译前,并非直接将源语句输入NMT模型中,而是将语句切分为较短的子句,将各个子句依次输入NMT模型,以使NMT模型分别依次翻译各个切分后的子句,然后,直接将翻译后的子句拼接为完整子句。由于输入NMT模型翻译的子句较短,NMT模型的翻译准确率较高,从而提高了语句翻译的准确率。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,用以保证所述方法在实际中的应用及实现。

    一种调序模型建立方法、装置及翻译方法

    公开(公告)号:CN104572636A

    公开(公告)日:2015-04-29

    申请号:CN201510057964.4

    申请日:2015-02-04

    Applicant: 苏州大学

    Inventor: 熊德意 王星 张民

    Abstract: 本申请公开了一种调序模型建立方法、装置及翻译方法,其中调序模型建立过程为:对训练语料按照文档标记进行切分,并以文档为单位组织成若干份文档,对每份文档进行文档主题估计,确定对应的主题信息,从训练语料中抽取含主题信息的语块,作为调序实例,并参考预置规则模板,从调序实例中抽取至少包含文档主题信息的调序特征,利用最大熵训练工具来训练调序特征,得到调序模型。本申请所获取的调序模型融合了文档主题信息,在对译文进行调序时,能够很好的适应不同文档主题对译文顺序的影响,提高了翻译译文的质量。

    带有复制机制的神经机器翻译方法

    公开(公告)号:CN108132932B

    公开(公告)日:2021-07-20

    申请号:CN201711441339.5

    申请日:2017-12-27

    Applicant: 苏州大学

    Inventor: 熊德意 邝少辉

    Abstract: 本发明涉及一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;对上述处理过的原始训练语句进行NMT系统的训练;在待翻译的源语句中,标记出需要指定翻译的短语。上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。

    一种基于词向量连接技术的神经机器翻译方法及装置

    公开(公告)号:CN107729329B

    公开(公告)日:2021-03-26

    申请号:CN201711091457.8

    申请日:2017-11-08

    Applicant: 苏州大学

    Inventor: 熊德意 邝少辉

    Abstract: 本发明公开了一种基于词向量连接技术的神经机器翻译方法,包括:在编码阶段,编码器获得源语句的词向量序列,根据确定的前向向量序列和反向向量序列确定源语句对应的隐层向量序列,每个源单词对应的含有上下文信息的向量表示包括该源单词对应的前向隐层状态、反向隐层状态及单词向量,可以获得上下文向量,在解码阶段,解码器预测相应源单词的目标单词,从而生成源语句的目标语句。应用本发明实施例所提供的技术方案,缩短了源端单词向量和目标端单词向量之间的信息通道,增强了单词向量之间的连接和映射,增强了翻译系统性能,提高了翻译质量。本发明还公开了一种基于词向量连接技术的神经机器翻译装置,具有相应技术效果。

    基于自注意力机制的多领域神经机器翻译方法

    公开(公告)号:CN110059323A

    公开(公告)日:2019-07-26

    申请号:CN201910344013.3

    申请日:2019-04-22

    Applicant: 苏州大学

    Inventor: 熊德意 张诗奇

    Abstract: 本发明公开了一种基于自注意力机制的多领域神经机器翻译方法。基于自注意力机制的多领域神经机器翻译方法,包括:对Transformer进行了两项重要的改变;第一个变化是基于领域感知的自注意力机制,其中领域表示被添加到原始的自注意力机制的键和值向量中;注意力机制的权重是查询和领域感知的键的相关程度。第二个变化是添加一个领域表示学习模块来学习领域向量。本发明的有益效果:本专利在目前代表最先进水平的神经网络架构Transformer上提出领域感知的NMT模型架构。为多领域翻译提出了一种基于领域感知的自注意力机制。据所知,这是在基于自注意力机制的多领域NMT上的首次尝试。同时,实验和分析也验证了的模型能够显著提升各领域的翻译效果并且可以学习到训练数据的领域信息。

    主动学习平行语料构建方法

    公开(公告)号:CN109284511A

    公开(公告)日:2019-01-29

    申请号:CN201811026790.5

    申请日:2018-09-04

    Applicant: 苏州大学

    Inventor: 熊德意 张培

    Abstract: 本发明涉及一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:获取原始平行语料和源端单语;获取所述原始平行语料的embedding和所述源端单语的embedding;计算所述源端单语中的每句话和所述平行语料的相似度;对所述源端单语中的每句话按照相似程度进行排序,选择前面设定百分比的句子;获取上述“前面设定百分比的句子”进行人工翻译后的目标端单语;将所述人工翻译后的目标端单语和上述“前面设定百分比的句子”构成的平行语料加入到所述原始平行语料中,组成新的平行语料;用所述新的平行语料,训练出新的模型。

    带有复制机制的神经机器翻译方法

    公开(公告)号:CN108132932A

    公开(公告)日:2018-06-08

    申请号:CN201711441339.5

    申请日:2017-12-27

    Applicant: 苏州大学

    Inventor: 熊德意 邝少辉

    Abstract: 本发明涉及一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;对上述处理过的原始训练语句进行NMT系统的训练;在待翻译的源语句中,标记出需要指定翻译的短语。上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。

Patent Agency Ranking