-
公开(公告)号:CN107329960B
公开(公告)日:2019-01-01
申请号:CN201710514935.5
申请日:2017-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。
-
公开(公告)号:CN108960319A
公开(公告)日:2018-12-07
申请号:CN201810700571.4
申请日:2018-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。
-
公开(公告)号:CN108920472A
公开(公告)日:2018-11-30
申请号:CN201810722720.7
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于深度学习的机器翻译系统的融合系统及方法,属于词汇融合技术领域。所述融合系统包括输入模块、编码模块、解码模块和输出模块;所述融合方法包括输入步骤、编码步骤、解码步骤和输出步骤;所述融合系统及方法具有提高机器翻译系统融合性能指标的特点。
-
公开(公告)号:CN107301226B
公开(公告)日:2018-06-15
申请号:CN201710469901.9
申请日:2017-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种问答系统中检索子模块的自动评价方法,属于模块自评价方法技术领域。通过针对检索出来的文档列表,根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示),通过机器学习模型(具体是GBDT),准确估计出这个检索结果的MAP值,从而完成最终的评价过程。具有评价确定度高,评价方法简洁等特点。适用于各种问答系统中检索子模块的自评价。
-
公开(公告)号:CN103605644B
公开(公告)日:2017-02-01
申请号:CN201310636884.5
申请日:2013-12-02
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言-目标语翻译规则库,通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。
-
公开(公告)号:CN105550174A
公开(公告)日:2016-05-04
申请号:CN201511023540.2
申请日:2015-12-30
Applicant: 哈尔滨工业大学
IPC: G06F17/28
CPC classification number: G06F17/289
Abstract: 基于样本重要性的自动机器翻译领域自适应方法,本发明涉及语言翻译领域,具体涉及一种自动机器翻译领域的自适应方法。为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题,本发明首先对训练样本添加权重,然后通过统计的方法得到训练样本源语言句子的一元词频分布,使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率并建立样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;依据短语对及其翻译概率生成基于样本权重向量的翻译规则,提高翻译系统领域适应性;能够得到具有领域适应能力的翻译系统。本发明适用于语言翻译领域。
-
公开(公告)号:CN103020046A
公开(公告)日:2013-04-03
申请号:CN201210566217.X
申请日:2012-12-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
CPC classification number: G06F17/28 , G06F17/2863
Abstract: 基于人名起源分类的人名音译方法,它涉及一种翻译系统。本发明解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下:一、人名起源分类;二、线性插值系统融合。本发明提出的方法将logistic多分类回归模型应用到人名起源分类中,并根据人名构成用字特征的特征模板进行人名起源分类;对于每一种起源的人名类别训练一个特定的音译(翻译)模型,再对多个音译模型的结果进行系统融合,实现双语人名互译。
-
公开(公告)号:CN102254011A
公开(公告)日:2011-11-23
申请号:CN201110200590.9
申请日:2011-07-18
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种动态多文档文摘建模方法,涉及一种动态多文档文摘建模方法。本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题。具体步骤:文档集合的预处理;建立特征抽取模块;建立信息过滤模块;建立句子加权模块;建立文摘生成模块,生成最佳文摘;使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。本发明的方法使动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。本发明方法获得的文摘全面性更高。应用于文摘抽取领域。
-
公开(公告)号:CN101763402A
公开(公告)日:2010-06-30
申请号:CN200910217462.8
申请日:2009-12-30
Applicant: 哈尔滨工业大学
Abstract: 多语言信息检索一体化检索方法,涉及多语言信息检索方法,解决了现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题,具体步骤如下:一、将用户输入的源语言查询关键词翻译成目标语言的关键词;二、目标语言的关键词根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式;三、求得在查询文档D中精确匹配模式的条件概率,共现模式的条件概率,独立模式的条件概率;四、计算在查询文档D中的文档生成查询概率;五、计算源语言查询关键词和查询文档特征向量的相似性;六、计算多语言信息检索的条件概率;七、返回检索结果。本发明适用于跨语言信息检索。
-
公开(公告)号:CN120068893A
公开(公告)日:2025-05-30
申请号:CN202510107862.2
申请日:2025-01-23
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/242 , G06N3/045 , G06N3/0475 , G06N3/088 , G06N3/092 , G06N3/094 , G06N5/04
Abstract: 本发明公开了一种基于双语词典注入的机器翻译强化方法,属于机器翻译强化技术领域。解决了现有技术中传统的机器翻译强化方法针对专有领域翻译的模型性能较差的问题;本发明对大规模无监督单语语料进行双语对齐,生成双语词典;对双语词典引入平行语料,统计双语词典中各个词对在平行语料中的命中率,建立Memory Bank并记录命中率,根据命中率进行词对重要性排序,得到排序后的双语词典;通过Memory Bank对排序后的双语词典中的源端数据进行数据增强,并输入到深度对抗网络模型进行模型训练,得到训练完的深度对抗网络模型。本发明有效实现了对平行语料进行数据增强并提升机器翻译系统生成质量,可以应用于机器翻译建模。
-
-
-
-
-
-
-
-
-