-
公开(公告)号:CN113360606A
公开(公告)日:2021-09-07
申请号:CN202110706335.5
申请日:2021-06-24
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/36 , G06F40/216 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于Filter的知识图谱问答联合训练方法,该方法通过利用问句作为输入将主实体识别和关系预测两个子任务使用预训练语言模型BERT进行联合学习;将模型进行联合学习后的结果输入到过滤器中,得到适用于不同子任务的词向量表示;利用主实体识别、实体链接和关系预测的词向量表示从问句中识别出主实体,并在知识图谱中找到主实体的三元组,预测关系谓词;通过主实体词和关系谓词从知识图谱中找到答案步骤实现。本发明能够解决知识图谱问答进行联合训练时各个任务会因为彼此的特征冲突导致的学习到的模型会忽略部分任务相关的特征的问题,并通过两类过滤器来确保学习到的模型既能利用任务的关联性,又能注意到任务的差异性。
-
公开(公告)号:CN113312452A
公开(公告)日:2021-08-27
申请号:CN202110667388.0
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。
-
公开(公告)号:CN113297841A
公开(公告)日:2021-08-24
申请号:CN202110566113.8
申请日:2021-05-24
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/284 , G06F40/58 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练双语词向量的神经机器翻译方法,将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练;训练:取预训练得到的双语词向量矩阵初始化翻译模型;将源语言输入编码器,将源语言编码的向量表示及对应目标语言输入解码器输出预测序列,将其与相应的目标序列进行对比并计算损失值,输入优化器对翻译模型参数进行优化;预测:在某个时间步里,将源语言输入优化的编码器,编码器输出相应向量表示,将该向量表示以及上一时间步翻译的目标语言词输入解码器,解码器输出该时间步的目标词,将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。
-
公开(公告)号:CN111897944A
公开(公告)日:2020-11-06
申请号:CN202010827800.6
申请日:2020-08-17
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F40/30 , G06F40/295 , G06F40/216 , G06F16/36 , G06F16/28
Abstract: 基于语义空间共享的知识图谱问答系统,它属于中文知识图谱问答技术领域。本发明解决了现有知识图谱问答系统中各模块之间信息共享不足,导致获得的答案实体的准确率有限的问题。本发明利用问句主实体识别子模块,实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型,通过将联合训练好的模型嵌入各子模块,以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体,通过各子模块之间的语义信息共享,可以有效提高获得的答案实体的准确率。通过实验证明,采用本发明方法获得的答案实体的准确率可以达到86.64%。本发明可以应用于知识图谱问答。
-
公开(公告)号:CN107357789B
公开(公告)日:2020-10-02
申请号:CN201710575907.4
申请日:2017-07-14
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/289 , G06F40/247
Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1‑3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
-
公开(公告)号:CN110472253A
公开(公告)日:2019-11-19
申请号:CN201910754140.0
申请日:2019-08-15
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明公开了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,通过训练目标计算误差,再通过梯度反向传播更新模型的参数。本发明提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。
-
公开(公告)号:CN107329960A
公开(公告)日:2017-11-07
申请号:CN201710514935.5
申请日:2017-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。
-
公开(公告)号:CN106844741A
公开(公告)日:2017-06-13
申请号:CN201710077735.8
申请日:2017-02-13
Applicant: 哈尔滨工业大学
Abstract: 一种面向特定领域的问题解答方法,本发明涉及面向特定领域的问题解答方法。本发明的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确,对特定领域的专有名称识别不准的问题。具体过程为:一、构建特定领域词表,利用词表对输入问题进行分词;二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;四、在知识库中进行答案候选词‑属性检索,得到答案候选段落;五、从答案候选段落筛选候选答案句。本发明用于特定领域的问题解答领域。
-
公开(公告)号:CN106202054A
公开(公告)日:2016-12-07
申请号:CN201610590151.6
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。
-
公开(公告)号:CN104199813A
公开(公告)日:2014-12-10
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
-
-
-
-
-
-
-
-