-
公开(公告)号:CN104391842A
公开(公告)日:2015-03-04
申请号:CN201410797926.8
申请日:2014-12-18
Applicant: 苏州大学
Abstract: 本发明的翻译模型构建方法和系统,利用双语平行语料库的对齐信息分别生成规则对齐表、单词语义向量表和短语表;之后,利用单词语义向量表和短语表,生成源语言语义空间下的源语言短语语义向量表及目标语言语义空间下的目标语言短语语义向量表;最终,利用不同语义空间下的短语语义向量表训练生成融合了语义信息的翻译模型。可见,本发明实现了在统计机器翻译中融合短语语义信息,申请人经研究发现,单词或短语的语义信息能够反映其与上下文单词或短语的相关性,相比于传统的基于词或短语的翻译方法,融入短语语义信息后翻译模型的翻译质量更高,从而,相比于现有技术,本发明进一步提升了统计机器翻译的翻译性能。
-
公开(公告)号:CN111797219B
公开(公告)日:2023-11-24
申请号:CN202010646758.8
申请日:2020-07-07
Applicant: 苏州大学
IPC: G06F16/332 , G06F40/194 , G06V10/74 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/08
Abstract: 本发明涉及一种使用多通道融合模型处理答案的神经问题生成方法及系统,包括:根据文档单词和答案单词的关系,分别计算硬匹配和软匹配的答案匹配编码,结合词嵌入向量,得到文档中每个单词最终的单词编码;对文档进行编码形成文档的隐层表示,对答案进行编码形成答案的隐层表示,将所述单词编码输入至注意力机制中,对文档的隐层表示和答案的隐层表示之间的关系进行建模,将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示;根据所述最终文档表示得到文档的上下文向量,根据所述答案的隐层表示得到答案的上下文向量,根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。本发明可以将答案直接从文档中找到。
-
公开(公告)号:CN107180026B
公开(公告)日:2020-12-29
申请号:CN201710301306.4
申请日:2017-05-02
Applicant: 苏州大学
IPC: G06F40/211 , G06F40/30
Abstract: 本发明公开了一种基于词嵌入语义映射的事件短语学习方法及装置,该方法包括:获取动宾结构的事件短语,提取其中包含的待扩展名词及待扩展动词;利用预先基于训练语料集训练的词嵌入模型得到与每个待扩展名词及待扩展动词对应的词向量;基于词向量计算每个待扩展名词及待扩展动词与训练语料集中的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。在事件识别性能上得到了显著的提升。
-
公开(公告)号:CN110046359A
公开(公告)日:2019-07-23
申请号:CN201910305131.3
申请日:2019-04-16
Applicant: 苏州大学
Abstract: 本发明公开了一种基于样例指导的神经机器翻译方法。本发明一种基于样例指导的神经机器翻译方法,包括:通过一个与源语句相似的句子的翻译来辅助源语句翻译,在样例数据库中找到与源语句相似的样例语句,把它们记为(x,xm),其中x表示源语句。我们提出将样例引入神经机器翻译模型,以此来指导其翻译的方法,具有以下优势:1.通过噪音掩盖的编码器模型,将样例语句中的无用的噪音信息掩掉,可以有效避免无用信息对源语句翻译的干扰。2.通过辅助解码器模型,可以显示地指导模型样例语句中哪些信息是可以使用的,以充分使用目标端样例语句中的信息。
-
公开(公告)号:CN108549644A
公开(公告)日:2018-09-18
申请号:CN201810326895.6
申请日:2018-04-12
Applicant: 苏州大学
Abstract: 本发明涉及一种利用神经机器翻译系统进行省略代词的语料处理方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:获取原始语料;对获取的语料进行词对齐,获得缺失代词的大概位置;将所有可能的代词放入到所有可能的缺失的位置;利用语言模型挑选最合适的代词和最合适的位置;再次进行词对齐,将补充缺失代词的位置换成相应目标语句中的代词;利用补充好的训练语料训练SequenceLabeling标注模型。上述利用神经机器翻译系统进行省略代词的语料处理方法,既能自动补充源语句中省略的代词,又能够避免利用源端语言补充源语句缺失代词后所产生的歧义,从而有效的提高翻译质量。还涉及一种利用神经机器翻译系统的翻译方法。
-
公开(公告)号:CN108021560A
公开(公告)日:2018-05-11
申请号:CN201711282996.X
申请日:2017-12-07
Applicant: 苏州大学
Abstract: 本申请公开了一种数据增强方法,应用于神经机器翻译,包括:对双语训练语料进行词对齐处理,得到词对齐信息;根据词对齐信息确定双语训练语料中包含的最小翻译单元;按预设的向量表征计算规则对所有最小翻译单元进行计算,得到对应的向量值;利用余弦公式计算各最小翻译单元间的相似度值;判断相似度值是否超过阈值,若是,则交换超过阈值的相似度值对应的最小翻译单元在双语训练语料中的位置,得到新双语训练语料。通过此种方式可以形成新的双语语料,有效增加训练语料,且使原语料的结构信息得到丰富,实现提升神经机器翻译对低资源语种翻译质量的提高。本申请还同时公开了一种数据增强系统、装置及计算机可读存储介质,具有上述有益效果。
-
公开(公告)号:CN107168950A
公开(公告)日:2017-09-15
申请号:CN201710303450.1
申请日:2017-05-02
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于双语语义映射的事件短语学习方法及装置,该方法包括:获取学习到的动宾结构的事件短语,提取出事件短语中包含的动词结构及名词结构;利用包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及其中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取转述词;确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。提升了事件识别性能。
-
公开(公告)号:CN105912523A
公开(公告)日:2016-08-31
申请号:CN201610209475.0
申请日:2016-04-06
Applicant: 苏州大学
IPC: G06F17/27
CPC classification number: G06F17/2775 , G06F17/2785
Abstract: 本申请公开的词义标注方法和装置,首先将包含目标词语的单句组成伪文档,进而获取所述伪文档中目标词语的潜层词义,然后利用潜层词义标注语料中目标词语,再将潜层词义与词典词义建立映射关系,最后根据映射关系用词典词义替换潜层词义,实现自动构建词义语料库,减少了构建词义标注语料库的时间和成本。
-
-
-
-
-
-
-