-
公开(公告)号:CN119377711A
公开(公告)日:2025-01-28
申请号:CN202411492400.9
申请日:2024-10-24
Applicant: 哈尔滨工业大学
IPC: G06F18/23 , G06F18/2413 , G06F16/2452 , G06F16/35 , G06F16/353
Abstract: 本发明属于自然语言处理领域,尤其基于聚类的Text‑to‑SQL示例合成方法、设备以及存储介质。本发明目的是解决现有的方法依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题,采用基于人工标注,获取原示例池;采用聚类方法将步骤一获取的原示例池中的示例划分为N个子示例池;根据划分后的N个子示例池进行合成,得到合成示例池;所述合成示例池包括M个合成示例;将合成示例池加入原示例池中,得到融合示例池,增强示例池多样性,从而降低示例标注的开销,解决了依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题。
-
公开(公告)号:CN107679225A
公开(公告)日:2018-02-09
申请号:CN201710986821.0
申请日:2017-10-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 一种基于关键词的回复生成方法,本发明涉及基于关键词的回复生成方法。本发明为了解决现有方法灵活性差、容易产生语意损失,以及序列对序列模型倾向于生成一般性万能回复的问题。本发明包括:一:根据输入的消息生成关键词;二:将输入的消息转化成上下文向量,将第一个关键词和上下文向量送入解码器,若得到的预测结果与第一个关键词一致,则将第二个关键词和上下文向量送入解码器;若得到的预测结果与第一个关键词不一致,则仍将第一个关键词和上下文向量送入解码器,直至得到的预测结果与第一个关键词一致后,再将第二个关键词和上下文向量送入解码器,直至所有关键词按顺序送入解码器,并得到预测结果。本发明用于聊天机器人回复生成领域。
-
公开(公告)号:CN107679225B
公开(公告)日:2021-03-09
申请号:CN201710986821.0
申请日:2017-10-20
Applicant: 哈尔滨工业大学
IPC: G06F16/332
Abstract: 一种基于关键词的回复生成方法,本发明涉及基于关键词的回复生成方法。本发明为了解决现有方法灵活性差、容易产生语意损失,以及序列对序列模型倾向于生成一般性万能回复的问题。本发明包括:一:根据输入的消息生成关键词;二:将输入的消息转化成上下文向量,将第一个关键词和上下文向量送入解码器,若得到的预测结果与第一个关键词一致,则将第二个关键词和上下文向量送入解码器;若得到的预测结果与第一个关键词不一致,则仍将第一个关键词和上下文向量送入解码器,直至得到的预测结果与第一个关键词一致后,再将第二个关键词和上下文向量送入解码器,直至所有关键词按顺序送入解码器,并得到预测结果。本发明用于聊天机器人回复生成领域。
-
公开(公告)号:CN119719146A
公开(公告)日:2025-03-28
申请号:CN202411762024.0
申请日:2024-12-03
Applicant: 哈尔滨工业大学
IPC: G06F16/2452 , G06F16/2453 , G06F16/2455 , G06N5/04
Abstract: 开放域Text‑to‑SQL的多跳表格检索方法、系统、存储介质及设备,属于Text‑to‑SQL技术领域。为了解决现有的表格检索方法存在因实体和很多不相关表格中实体相似导致的不相关表格被检索到的问题,以及实体可能和相关领域不匹配导致的检索到的表格更加远离相关领域的问题。本发明采用多跳检索,第一跳采用原始的用户问题检索表格,而在之后的跳步中,采用LLM改写的表格化的问题检索表格;并且采用束搜索在每一跳保持多个检索结果,通过每一跳检索阶段结束后计算表格与问题相关的概率,选取多组最有可能的检索结果,和原始的用户问题一起输入给改写阶段;对所有表格进行排序,并据此选取表格进行检索。
-
公开(公告)号:CN118535149A
公开(公告)日:2024-08-23
申请号:CN202410588587.6
申请日:2024-05-13
Applicant: 哈尔滨工业大学
IPC: G06F8/35 , G06F40/151 , G06F40/211 , G06F40/30 , G06F40/58 , G06F18/22
Abstract: 本发明属于数据增强领域,尤其涉及一种基于句子级语码转换模型的多语言代码生成方法。针对原本语码转换技术一词多义、代码不相关的问题,本发明提出了一种一种基于句子级语码转换模型的多语言代码生成方法,该方法利用机器翻译、代码大模型技术,在模型中有效地引入了代码信息和上下文信息,增强了语码转换句子的上下文一致性和代码一致性,生成的新数据能显著提升模型多语言代码生成能力,本发明关键在于使用句子级别切分代替词级别切分解决一词多义,以及使用代码大模型的PPL组合句子引入代码信息,解决了原本语码转换技术一词多义、代码不相关的问题。从而提高了多语言代码生成技术存在生成的代码的准确性。
-
公开(公告)号:CN119721244A
公开(公告)日:2025-03-28
申请号:CN202411799156.0
申请日:2024-12-09
Applicant: 哈尔滨工业大学
IPC: G06N5/04 , G06F16/36 , G06F16/31 , G06F16/334 , G06F40/284 , G06F40/226
Abstract: 一种基于邻接矩阵与投机解码的大模型推理方法及系统,它属于大模型推理技术领域。本发明解决了现有方法的加速能力有限,且构造草稿单词序列时没有充分利用大模型在解码过程中产生的其他候选单词的问题。本发明具体为:步骤1、构建用于存储词表中每个单词的k个候选单词的邻接矩阵;步骤2、根据输入查询序列从邻接矩阵中检索出由草稿单词序列组成的草稿树;步骤3、利用草稿树中的节点构造一个压缩序列,并基于草稿树构造注意力掩码矩阵;步骤4、将注意力掩码矩阵和压缩序列输入大模型,利用大模型对草稿树中的各个草稿单词序列进行验证得到推理结果,并更新邻接矩阵。本发明方法可以应用于大模型推理。
-
公开(公告)号:CN119274192A
公开(公告)日:2025-01-07
申请号:CN202411292090.6
申请日:2024-09-14
Applicant: 哈尔滨工业大学
Abstract: 本发明属于多模态大模型领域,尤其涉及一种面向多模态大模型的多粒度数据集构建方法、设备以及存储介质。本发明目的是解决现有多模态大模型存在对图像内容理解能力差的问题。提出了种面向多模态大模型的多粒度数据集构建方法,包括:收集数据集;对数据集中的所有图像进行处理,得到预处理后的图像;预处理后的细粒度对象注释;数据集中所有图像的粗粒度字幕注释;细粒度对象类别标签描述;最终构建多模态大模型的多粒度数据集。多模态大模型的多粒度数据集解决了现有的多模态大模型训练集只使用粗粒度注释,忽视了细粒度注释,从而导致了模型对概念理解的不够深入,限制了模型的多模态任务性能差的问题。
-
公开(公告)号:CN118643813A
公开(公告)日:2024-09-13
申请号:CN202410836145.9
申请日:2024-06-26
Applicant: 哈尔滨工业大学
IPC: G06F40/18 , G06F16/332 , G06N5/04
Abstract: 一种基于表达式分解的数值推理方法、系统、存储介质及设备,它属于自然语言处理领域。本发明解决了现有数值推理模型难以处理表格类型的数据的问题。本发明首先构造表格预测任务数据、表格计算任务数据以及别名定位任务数据,将构造的数据作为数值推理模型的预训练数据;利用预训练数据对数值推理模型进行预训练后,获得预训练好的数值推理模型;再基于表达式分解来构造数值推理模型的训练数据;利用构造的训练数据对预训练好的数值推理模型进行训练,获得训练好的数值推理模型;将用户问题作为训练好的数值推理模型的输入,通过训练好的数值推理模型输出对输入问题的回复。本发明方法可以应用于数值推理。
-
公开(公告)号:CN107766506A
公开(公告)日:2018-03-06
申请号:CN201710986813.6
申请日:2017-10-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
CPC classification number: G06F17/30654
Abstract: 本发明涉及一种基于层次化注意力机制的多轮对话模型构建方法,是为了解决现有的人机对话系统依赖于大规模语料,训练速度受到语料规模的影响,并且由于对话生成的回复不唯一性,Seq2Seq模型总是倾向于生成通用,无意义的回复的缺点,而提出一种基于层次化注意力机制的多轮对话模型构建方法,包括:接收句子输入,针对每一个句子,从第一个单词开始计算加密隐函数,计算第每个句子的Attention权重,并计算话题语境表示向量,最后计算解密隐函数,同时将结果进行输出。本发明适用于开放域的聊天机器人系统。
-
公开(公告)号:CN119356690A
公开(公告)日:2025-01-24
申请号:CN202411492406.6
申请日:2024-10-24
Applicant: 哈尔滨工业大学
Abstract: 本发明属于计算机技术领域,尤其涉及一种自构造上下文的反编译方法、设备以及存储介质。针对现有的技术生成的反编译代码的准确性不高的问题。提出了一种自构造上下文的反编译方法包括:获取待反编译的二进制文件X,将待反编译的二进制文件X进行反汇编处理,得到获得汇编代码A;使用预训练生成模型对汇编代码A进行反编译处理,得到编译代码B;使用编译器对得到的编译代码B进行编译处理,得到新的二进制文件C;对得到的二进制文件C进行反汇编处理,得到汇编代码E,将汇编代码E和编译代码B构建为一组样例Y;将得到的样例Y和汇编代码A拼接起来输入预训练生成模型中,进行反编译处理,得到新的编译代码F。
-
-
-
-
-
-
-
-
-