-
公开(公告)号:CN118035365A
公开(公告)日:2024-05-14
申请号:CN202410248304.3
申请日:2024-03-05
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种利用关系型数据库管理系统存储多模型数据的方法。本发明方法的步骤包括:1)将多模型数据按属性存储:将多模型数据的各属性转化成若干属性表,第一列代表对象编号,第二列为一个属性;2)遗传算法寻优:使用遗传算法,选择属性表进行聚合,寻找使得查询速度最快的关系模式;3)提高存储效率:将查询速度相近的若干关系模式做比较,选择占用存储最少的关系模式。本发明首次提出了一种利用遗传算法的、将多模型数据存储在关系型数据库管理系统中的方法,本发明方法提升了查询效率并减少了空间消耗,优于现有方法,具有通用、简便等优点。
-
公开(公告)号:CN112506876A
公开(公告)日:2021-03-16
申请号:CN202011362702.6
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/174 , G06F16/2455 , G06F16/31
Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。
-
公开(公告)号:CN119988979A
公开(公告)日:2025-05-13
申请号:CN202510160819.2
申请日:2025-02-13
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F18/214 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。
-
公开(公告)号:CN119398018A
公开(公告)日:2025-02-07
申请号:CN202411975829.3
申请日:2024-12-31
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。
-
公开(公告)号:CN112506876B
公开(公告)日:2022-05-13
申请号:CN202011362702.6
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/174 , G06F16/2455 , G06F16/31
Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。
-
公开(公告)号:CN112380400A
公开(公告)日:2021-02-19
申请号:CN202011309993.2
申请日:2020-11-20
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/901 , G06F16/906 , G06F16/909
Abstract: 本发明公开了一种基于后缀树误差有界的轨迹预测方法。历史轨迹输入到深度学习模型中进行处理获得预测轨迹,将历史轨迹存储到后缀树中,当有新的预测请求时,在后缀树中找到相似的轨迹作为预测结果,由后缀树直接返回预测结果。本发明能在后缀树中找到相似轨迹,由后缀树直接返回预测结果,无需进入神经网络进行预测,极大提高了轨迹预测的效率。
-
公开(公告)号:CN119990085A
公开(公告)日:2025-05-13
申请号:CN202510160821.X
申请日:2025-02-13
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F40/18 , G06F18/214 , G06N3/045 , G06N3/088 , G06N3/0895
Abstract: 本发明公开了一种基于表格置换不变性的预训练方法和装置。该方法包括第一阶段根据表格中行、列的置换不变性构造正负样本对数据,然后用对比学习的方法构建预训练任务;为了让预训练模型适应各种各样的下游任务,第二阶段是表格与下游任务进行对齐,表格的下游任务包括表格问答、表格分类、表格数据生成、表格摘要提取等,根据不同的下游任务分别对预训练模型和下有任务的语言大模型进行联合对齐训练,从而得到能适应各种下游任务的预训练模型。
-
公开(公告)号:CN112395467A
公开(公告)日:2021-02-23
申请号:CN202011362738.4
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/901 , G06F16/909 , G06F16/29
Abstract: 本发明公开了一种基于时隙的时空索引方法。根据运动对象的轨迹,构建TS‑TPR索引结构,将实时获得的预测轨迹插入到TS‑TPR中对应的TPR树中;批量更新TS‑TPR索引结构中的轨迹数据;以分而治之方式使用TS‑TPR回答预测性时空查询。通过本发明的索引能索引预测轨迹,可以索引连续轨迹,完成有关的预测性查询,提升了预测性查询的准确率。
-
公开(公告)号:CN119415641A
公开(公告)日:2025-02-11
申请号:CN202510014062.6
申请日:2025-01-06
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/332 , G06F16/35 , G06F16/33 , G06F18/214
Abstract: 本发明公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。
-
公开(公告)号:CN118427196A
公开(公告)日:2024-08-02
申请号:CN202410580754.2
申请日:2024-05-11
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/22 , G06F16/28 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种适用于关系型数据库内深度学习模型的存储方法和装置。本发明基于关系型数据库向量存储技术和深度学习框架,是一种能够在导入模型时在数据库中存储模型参数、使用模型时合并数据库中模型参数的方法。该方法内置多种基础模型。当导入新模型时可以指定基础模型,读取模型并将模型层名与模型参数保存到模型参数表中;在使用模型时会根据模型参数表获取模型的基础模型信息,加载基础模型并读取模型参数表中记录的层名与各层参数,将各层参数设置回基础模型中即可还原模型。本发明对于一个基于基础模型的新模型只需要记录各层参数即可,无需存储模型结构信息,这种数据库内模型存储方法能显著减少模型在数据库内所占据的存储容量。
-
-
-
-
-
-
-
-
-