-
公开(公告)号:CN107908681A
公开(公告)日:2018-04-13
申请号:CN201711033737.3
申请日:2017-10-30
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30536
Abstract: 本申请公开了一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将目标网站与搜索网站的相似度进行比较,得到相似度列表;查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。在本发明中,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率。相应的,本发明还公开了一种相似网站查找系统、一种相似网站查找设备及一种计算机可读存储介质,同样具有以上有益效果。
-
公开(公告)号:CN107180026A
公开(公告)日:2017-09-19
申请号:CN201710301306.4
申请日:2017-05-02
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于词嵌入语义映射的事件短语学习方法及装置,该方法包括:获取动宾结构的事件短语,提取其中包含的待扩展名词及待扩展动词;利用预先基于训练语料集训练的词嵌入模型得到与每个待扩展名词及待扩展动词对应的词向量;基于词向量计算每个待扩展名词及待扩展动词与训练语料集中的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。在事件识别性能上得到了显著的提升。
-
公开(公告)号:CN106021371A
公开(公告)日:2016-10-12
申请号:CN201610308712.9
申请日:2016-05-11
Applicant: 苏州大学
Abstract: 一种事件识别方法及系统,将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射,并对映射过程中生成的所述结构化短语进行后处理;获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语,并根据所述事件短语对文本进行事件识别。本申请通过将初始短语在两种语言之间以结构化短语的形式相互映射,可以解决单一语言的语料资源匮乏的问题,并且能够通过挖掘两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信息,从而可以获得更为完备的用于进行事件识别的事件短语,提高事件识别的准确率和召回率。
-
公开(公告)号:CN108460028B
公开(公告)日:2021-08-03
申请号:CN201810325818.9
申请日:2018-04-12
Applicant: 苏州大学
Abstract: 本发明涉及一种将句子权重融入神经机器翻译的领域适应方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:计算out‑of‑domain句子与in‑domain语料的相似度来赋予句子权重;将所述句子权重信息融入NMT训练。上述将句子权重融入神经机器翻译的领域适应方法,我们利用NMTencoder的自身信息用领域相似度的方法得到权重,并将权重融入NMT训练。这种新方法比论文“Instance weighting for neural machine translation domain adaptation.”中的方法能取得更好的翻译效果。
-
公开(公告)号:CN107168950B
公开(公告)日:2021-02-12
申请号:CN201710303450.1
申请日:2017-05-02
Applicant: 苏州大学
IPC: G06F40/289
Abstract: 本发明公开了一种基于双语语义映射的事件短语学习方法及装置,该方法包括:获取学习到的动宾结构的事件短语,提取出事件短语中包含的动词结构及名词结构;利用包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及其中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取转述词;确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。提升了事件识别性能。
-
公开(公告)号:CN105808530B
公开(公告)日:2019-11-08
申请号:CN201610168375.8
申请日:2016-03-23
Applicant: 苏州大学
Abstract: 本申请公开了一种统计机器翻译中的翻译方法和装置,在统计机器翻译的训练阶段,生成包含源端短语语义向量的翻译模型,并在解码阶段,计算待翻译短语的语义向量,然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度,并将相似度作为一个子模型集成到对数线性模型中,以供统计机器翻译系统选择与待翻译短语语义最接近的译文。传统的统计机器翻译系统不包含语义信息,本申请通过生成源端短语的语义,并利用语义向量的相似度,帮助统计机器翻译系统更准确地选出与待翻译短语语义接近的译文,能够有效地提高统计机器翻译译文的质量。
-
公开(公告)号:CN109299479A
公开(公告)日:2019-02-01
申请号:CN201810953968.4
申请日:2018-08-21
Applicant: 苏州大学
Abstract: 本发明涉及一种通过门控机制将翻译记忆融入神经机器翻译的方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:数据前处理阶段:训练得到每句话的句向量,包括待翻译的源语句与翻译记忆库中的句子;对于源语句,通过计算其与翻译记忆库中句子的句向量的余弦相似度得到相似性,随后选出其中概率最高的那一句对与源语句互相匹配,把它们记为(sa,sb),其中sa表示源语句,sb表示翻译记忆库中计算句向量余弦相似度与源语句最接近的句子,对应的翻译记做(ta,tb),计算sa与sb的模糊匹配得分,相关公式如下所示。上述通过门控机制将翻译记忆融入神经机器翻译的方法,通过句向量获得源语句与翻译记忆库中语义最相似的句子。
-
公开(公告)号:CN108536688A
公开(公告)日:2018-09-14
申请号:CN201810365280.4
申请日:2018-04-23
Applicant: 苏州大学
Abstract: 本发明涉及一种发现全网多语言网站并获得平行语料的方法,包括:获取Common Crawl中的URL信息的索引文件;根据预设标准,为获取的URL信息的索引文件构建一个包含各种语言标签的字典;根据所述包含各种语言标签的字典,对URL信息的索引文件进行过滤处理,得到需要的候选的多语言网站的URL;通过所述候选的多语言网站的URL,获取平行语料。上述发现全网多语言网站并获得平行语料的方法,通过开源的数据集,利用语言标签的方法,得到候选的多语言网站的URL,最后获取平行语料,该方法可以快速得到平行语料。
-
公开(公告)号:CN105808530A
公开(公告)日:2016-07-27
申请号:CN201610168375.8
申请日:2016-03-23
Applicant: 苏州大学
Abstract: 本申请公开了一种统计机器翻译中的翻译方法和装置,在统计机器翻译的训练阶段,生成包含源端短语语义向量的翻译模型,并在解码阶段,计算待翻译短语的语义向量,然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度,并将相似度作为一个子模型集成到对数线性模型中,以供统计机器翻译系统选择与待翻译短语语义最接近的译文。传统的统计机器翻译系统不包含语义信息,本申请通过生成源端短语的语义,并利用语义向量的相似度,帮助统计机器翻译系统更准确地选出与待翻译短语语义接近的译文,能够有效地提高统计机器翻译译文的质量。
-
公开(公告)号:CN109299479B
公开(公告)日:2023-07-14
申请号:CN201810953968.4
申请日:2018-08-21
Applicant: 苏州大学
IPC: G06F40/58 , G06F40/30 , G06F40/211 , G06N3/044
Abstract: 本发明涉及一种通过门控机制将翻译记忆融入神经机器翻译的方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:数据前处理阶段:训练得到每句话的句向量,包括待翻译的源语句与翻译记忆库中的句子;对于源语句,通过计算其与翻译记忆库中句子的句向量的余弦相似度得到相似性,随后选出其中概率最高的那一句对与源语句互相匹配,把它们记为(sa,sb),其中sa表示源语句,sb表示翻译记忆库中计算句向量余弦相似度与源语句最接近的句子,对应的翻译记做(ta,tb),计算sa与sb的模糊匹配得分,相关公式如下所示。上述通过门控机制将翻译记忆融入神经机器翻译的方法,通过句向量获得源语句与翻译记忆库中语义最相似的句子。
-
-
-
-
-
-
-
-
-