一种利用关系型数据库管理系统存储多模型数据的方法

    公开(公告)号:CN118035365A

    公开(公告)日:2024-05-14

    申请号:CN202410248304.3

    申请日:2024-03-05

    Abstract: 本发明公开了一种利用关系型数据库管理系统存储多模型数据的方法。本发明方法的步骤包括:1)将多模型数据按属性存储:将多模型数据的各属性转化成若干属性表,第一列代表对象编号,第二列为一个属性;2)遗传算法寻优:使用遗传算法,选择属性表进行聚合,寻找使得查询速度最快的关系模式;3)提高存储效率:将查询速度相近的若干关系模式做比较,选择占用存储最少的关系模式。本发明首次提出了一种利用遗传算法的、将多模型数据存储在关系型数据库管理系统中的方法,本发明方法提升了查询效率并减少了空间消耗,优于现有方法,具有通用、简便等优点。

    一种支持SQL查询的无损压缩查询方法

    公开(公告)号:CN112506876A

    公开(公告)日:2021-03-16

    申请号:CN202011362702.6

    申请日:2020-11-27

    Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。

    一种基于迭代数据增强策略提升大模型微调效果的方法和装置

    公开(公告)号:CN119988979A

    公开(公告)日:2025-05-13

    申请号:CN202510160819.2

    申请日:2025-02-13

    Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。

    一种二维表格数据多模态模型的设计和训练方法

    公开(公告)号:CN119398018A

    公开(公告)日:2025-02-07

    申请号:CN202411975829.3

    申请日:2024-12-31

    Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。

    一种支持SQL查询的无损压缩查询方法

    公开(公告)号:CN112506876B

    公开(公告)日:2022-05-13

    申请号:CN202011362702.6

    申请日:2020-11-27

    Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。

    一种表格数据分析领域大模型的训练和评估方法

    公开(公告)号:CN119415641A

    公开(公告)日:2025-02-11

    申请号:CN202510014062.6

    申请日:2025-01-06

    Abstract: 本发明公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。

    适用于关系型数据库内深度学习模型的存储方法和装置

    公开(公告)号:CN118427196A

    公开(公告)日:2024-08-02

    申请号:CN202410580754.2

    申请日:2024-05-11

    Abstract: 本发明公开了一种适用于关系型数据库内深度学习模型的存储方法和装置。本发明基于关系型数据库向量存储技术和深度学习框架,是一种能够在导入模型时在数据库中存储模型参数、使用模型时合并数据库中模型参数的方法。该方法内置多种基础模型。当导入新模型时可以指定基础模型,读取模型并将模型层名与模型参数保存到模型参数表中;在使用模型时会根据模型参数表获取模型的基础模型信息,加载基础模型并读取模型参数表中记录的层名与各层参数,将各层参数设置回基础模型中即可还原模型。本发明对于一个基于基础模型的新模型只需要记录各层参数即可,无需存储模型结构信息,这种数据库内模型存储方法能显著减少模型在数据库内所占据的存储容量。

Patent Agency Ranking