-
公开(公告)号:CN107329960A
公开(公告)日:2017-11-07
申请号:CN201710514935.5
申请日:2017-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。
-
公开(公告)号:CN106844741A
公开(公告)日:2017-06-13
申请号:CN201710077735.8
申请日:2017-02-13
Applicant: 哈尔滨工业大学
Abstract: 一种面向特定领域的问题解答方法,本发明涉及面向特定领域的问题解答方法。本发明的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确,对特定领域的专有名称识别不准的问题。具体过程为:一、构建特定领域词表,利用词表对输入问题进行分词;二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;四、在知识库中进行答案候选词‑属性检索,得到答案候选段落;五、从答案候选段落筛选候选答案句。本发明用于特定领域的问题解答领域。
-
公开(公告)号:CN106202054A
公开(公告)日:2016-12-07
申请号:CN201610590151.6
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。
-
公开(公告)号:CN104199813A
公开(公告)日:2014-12-10
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN103617160A
公开(公告)日:2014-03-05
申请号:CN201310674134.7
申请日:2013-12-11
Applicant: 哈尔滨工业大学
Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。
-
公开(公告)号:CN120068892A
公开(公告)日:2025-05-30
申请号:CN202510107860.3
申请日:2025-01-23
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于提示优化的大语言模型机器翻译强化方法,属于机器翻译强化技术领域。解决了现有技术中传统的针对大语言模型的微调方法因难以提升模型性能导致模型翻译结果不准确的问题;本发明通过提示解码器对提示解码器进行预训练和微调,得到预训练和微调后的提示解码器,构建基于提示解码器的大语言模型;引入SVD‑LoRA方法,对基于提示解码器的大语言模型进行端到端训练,得到训练后的大语言模型;基于外部知识库,构建优化后的的机器翻译的提示,将优化后的的机器翻译的提示输入到训练后的大语言模型,得到目标端语句。本发明提升了大语言模型翻译性能,能够自动优化提示并缩短输入提示长度,可以应用于对大语言模型进行微调。
-
公开(公告)号:CN114818658B
公开(公告)日:2025-05-06
申请号:CN202210617790.2
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06N3/042 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N5/04
Abstract: 本发明提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点,不能很好的表示两个实体之间全局特征的问题。本发明的具体的步骤为:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。本发明属于自然语言处理领域。
-
公开(公告)号:CN119647621A
公开(公告)日:2025-03-18
申请号:CN202411671767.7
申请日:2024-11-21
Applicant: 哈尔滨工业大学
Abstract: 面向长文本场景的大语言模型安全风险评估方法、系统和设备,属于大语言模型技术领域,解决大语言模型在长文本场景的安全性保障严重不足,存在着极大的安全评估方法的缺口问题。本发明方法包括:大模型在面对长文本输入时,针对同一有害任务,评估其安全性表现是否与短文本场景下的评估结果一致。本发明利用短文本场景安全领域数据,自动化生成整体语义一致、长文本形式的有害内容,构建长文本场景安全风险评估数据集,识别模型在长文本场景下中的潜在安全风险。采用的长文本评估方法包含上下文学习、基于反向长度扩充和思维链的有害长文本生成技术、经过无偏估计处理的安全评估指标。本发明适用于评估大语言模型在长文本场景下的安全风险。
-
公开(公告)号:CN119377261A
公开(公告)日:2025-01-28
申请号:CN202411444741.9
申请日:2024-10-16
Applicant: 哈尔滨工业大学
IPC: G06F16/2453 , G06F16/2455 , G06F16/2457
Abstract: 本发明属于计算机技术领域,具体涉及一种基于外部检索提高大语言模型在财务查询问题上准确率的方法及其系统。步骤1:对财务问题进行总结;步骤2:基于步骤1财务查询问题的总结对大语言模型进行训练;步骤3:对财务问题的复杂度进行判断;步骤4:基于步骤3的判断进行计算公式的分解,分解成多个子公式;步骤5:对步骤4分解成的子公式利用步骤2训练好的大语言模型,得到各个子公式的最终答案;步骤6:将步骤5的求和结果按照分解时的计算公式进行结果求和,让大语言模型自动求解,实现提高大语言模型在财务查询问题上准确率。本发明用以解决大语言模型需要进行大量计算的问题。
-
公开(公告)号:CN115034237B
公开(公告)日:2024-10-29
申请号:CN202210618305.3
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/58
Abstract: 一种基于翻译简易度的数据筛选方法,它涉及一种数据筛选方法。本发明为了解决机器翻译数据增强过程中数据质量不佳的问题。本发明将扩增后的所有平行句对作为筛选的对象,首先,利用原有数据集训练得到一个语言模型,该语言模型用于后续的简易度的测量和计算,然后还需要利用已有的数据训练得到正向和反向的翻译模型,得到了三个模型之后,先根据语言模型计算扩增后新的数据的得分作为第一权值,紧接着再将该句子依次送入正向翻译模型和反向翻译模型后得到一个重构的句子,计算该重构句子和原句子之间的bleu值作为第二权值,最后将两个权值加权求和,按照从小到大进行排序,保留得分在排名前70%的句对即可。本发明属于计算机信息筛选技术领域。
-
-
-
-
-
-
-
-
-