一种大模型处理表格数据的方法、装置及介质

    公开(公告)号:CN118245485B

    公开(公告)日:2024-08-23

    申请号:CN202410645067.4

    申请日:2024-05-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种大模型处理表格数据的方法、装置及介质,包括:将用户的自然语言转化为SQL查询,以进行表格数据查询请求;将SQL查询中的表格任务解析成对应的算子,以生成粗粒度的计算图;使用算子分解、算子组合、算子重排,并结合代价函数对粗粒度的计算图进行优化,生成细粒度的计算图;根据细粒度的计算图编译成代码;执行所述代码,得到用户答复。本发明能够实现与表格的自然语言交互,能够实现提取信息、计算、推理等功能,具备更强的理解和执行表格任务的能力。

    基于数据库管理系统的深度神经网络推理方法和装置

    公开(公告)号:CN118278468A

    公开(公告)日:2024-07-02

    申请号:CN202410695887.4

    申请日:2024-05-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据库管理系统的深度神经网络推理方法和装置,包括:将预训练神经网络模型参数转换为二进制格式;根据不同的目标任务,使用对应的目标数据集微调将参数已转换为二进制格式的预训练神经网络模型,并在微调中,通过概率模型和剪枝技术,去除冗余参数,得到轻量化模型;将若干个所述轻量化模型部署到数据库管理系统中,即SmartLite;其中,所述预训练神经网络模型的结构和参数作为共享块;当所述SmartLite接受到混合查询请求,至少调用一个模型进行推理;所述混合查询包括SQL查询和深度学习模型推理。本发明计算效率显著提升,使用查找表和比特操作优化,在各种计算任务中显著提高了计算速度。

    一种大模型处理表格数据的方法、装置及介质

    公开(公告)号:CN118245485A

    公开(公告)日:2024-06-25

    申请号:CN202410645067.4

    申请日:2024-05-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种大模型处理表格数据的方法、装置及介质,包括:将用户的自然语言转化为SQL查询,以进行表格数据查询请求;将SQL查询中的表格任务解析成对应的算子,以生成粗粒度的计算图;使用算子分解、算子组合、算子重排,并结合代价函数对粗粒度的计算图进行优化,生成细粒度的计算图;根据细粒度的计算图编译成代码;执行所述代码,得到用户答复。本发明能够实现与表格的自然语言交互,能够实现提取信息、计算、推理等功能,具备更强的理解和执行表格任务的能力。

    一种基于数据湖的查询方法和装置

    公开(公告)号:CN118227656A

    公开(公告)日:2024-06-21

    申请号:CN202410650121.4

    申请日:2024-05-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据湖的查询方法和装置,包括:根据用户输入,对查询的目标数据集进行采样,得到模式信息M和数据样本信息,从而构建查询;将查询分解成若干个子任务,从而构建处理图;修正处理图,采用shuffle技术和/或Collapse技术,并结合成本模型对修正后的处理图进行优化;根据优化后的处理图生成代码并执行,以输出用户查询结果。本发明无需中介模式,简化查询过程,不需要数据转换和加载,简化了操作,从整体上提高了查询效率。在查询细节上,设计了针对LLM生成代码的查询优化器,极大提高了LLM生成代码的执行效率和对应方法的可解释性,其中对处理图修正以辅助LLM能提高查询准确性,使整个自然语言查询任务的准确性超过传统方法。

    基于预训练语言模型的命名体识别方法、电子设备、介质

    公开(公告)号:CN116629261A

    公开(公告)日:2023-08-22

    申请号:CN202310455003.3

    申请日:2023-04-24

    Applicant: 浙江大学

    Inventor: 赵俊博 杨涵韬

    Abstract: 本发明公开了一种基于预训练语言模型的命名体识别方法,其特征在于,所述方法具体包括:获取自适应训练语料,包括:获取领域相关文本,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到 对,将 对转化为提示文本,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料;构建预训练语言模型;利用自适应训练语料训练预训练语言模型;利用训练好的预训练语言模型进行命名体识别。

    基于人体关键点动作序列匹配的视频图像运动计数方法

    公开(公告)号:CN116206237A

    公开(公告)日:2023-06-02

    申请号:CN202310018858.X

    申请日:2023-01-06

    Abstract: 本发明公开了一种基于人体关键点动作序列匹配的视频图像运动计数方法。人体在相机视野中进行运动,通过相机采集人体运动的视频图像,通过对视频图像的分析处理获得运动的类型和计数,具体是基于动作序列拆分的运动计数,建立不同的模板对每个运动动作进行匹配识别,且自适应分配运行在不同的计算设备中。本发明在使用关键点检测准确率相对较低的小模型上也有较高的计数准确性和稳定性,满足检测速度要求较高的运动场景,具有运行速度快,动作匹配稳定性和准确率高,计数准确率高,适用于不同部署设备上运行等优点。

    一种表格数据分析领域大模型的训练和评估方法

    公开(公告)号:CN119415641A

    公开(公告)日:2025-02-11

    申请号:CN202510014062.6

    申请日:2025-01-06

    Abstract: 本发明公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。

Patent Agency Ranking