-
公开(公告)号:CN119990322A
公开(公告)日:2025-05-13
申请号:CN202510120066.2
申请日:2025-01-25
Applicant: 浙江大学计算机创新技术研究院
IPC: G06N5/04 , G06F40/205 , G06F40/126 , G06F18/22 , G06F40/284 , G06F8/30 , G06F16/2452 , G06F16/2455 , G06F21/57
Abstract: 本发明公开了一种基于大语言模型的表格问答方法及系统。表格问答系统是能够理解表格数据(excel文件,csv文件,数据库db文件等表格形式的数据)并能够结合表格进行问答,数据查询统计和分析的系统。本发明提出了一套基于大语言模型的表格问答方法,包括表格信息抽取,问题详细化改写,解决方案和代码生成,Rewad模型打分评估,代码安全检测,代码执行器,总结答案生成等模块,通过各个步骤的配合能够提升表格问答的准确性,安全性和稳定性,增强大语言模型在表格数据分析问答上的能力。
-
公开(公告)号:CN119415641A
公开(公告)日:2025-02-11
申请号:CN202510014062.6
申请日:2025-01-06
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/332 , G06F16/35 , G06F16/33 , G06F18/214
Abstract: 本发明公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。
-
公开(公告)号:CN114842268A
公开(公告)日:2022-08-02
申请号:CN202210579416.8
申请日:2022-05-25
Applicant: 浙江大学计算机创新技术研究院
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08
Abstract: 本发明公开了一种基于数据增强的深度学习对抗训练方法。所述数据增强模块,对数据中的每一数据样本应用多次数据增强或数据变换得到多个增强样本;还包括对抗攻击模块,对抗攻击模块对增强样本施加扰动以生成对抗样本,再输入到对抗训练模块的目标模型中用于进行训练;所述对抗训练模块,将生成的对抗样本中使得损失函数最大的对抗样本组件训练数据集对目标模型进行训练。本发明在大大缓解了对抗训练普遍存在的鲁棒过拟合现象的同时提升了模型的精度,达到提升模型精度以及增强模型鲁棒性的目的。
-
公开(公告)号:CN113658236A
公开(公告)日:2021-11-16
申请号:CN202110918646.8
申请日:2021-08-11
Applicant: 浙江大学计算机创新技术研究院
IPC: G06T7/33
Abstract: 本发明公开了一种基于图注意力机制的残缺点云配准方法。构建残缺点云配准网络并训练,利用残缺点云配准网络对待测物体的目标点云和源点云处理获得旋转变换和平移变换结果,进而变换实现点云配准;使用多层感知机网络提取残缺点云的高维特征,使用图注意力机制增强这些高维特征对点云空间结构信息的捕获能力和对关键匹配点的注意力,在全连接层获得的残缺点云各自高维特征基础上构建点云虚拟匹配对应点;使用奇异值分解获得点云间的旋转变换和平移变换。本发明方法能够有效解决不完整对应残缺点云之间的配准问题,能提升配准算法对关键配准点的注意力,避免非对应点的干扰,对点云缺失、高噪声、任意初始对应位置等复杂环境具有较强的适用性。
-
公开(公告)号:CN112396164A
公开(公告)日:2021-02-23
申请号:CN202011309990.9
申请日:2020-11-20
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种基于环境敏感智能轨迹预测方法。搜集车辆的轨迹数据并做预处理;选取横坐标和纵坐标范围建立路网区域;根据粒度将路网区域划分为相等的网格;根据粒度,设置网格映射函数,将轨迹数据转换为网格轨迹序列;统计构建获得网格粒度矩阵;构建基于环境敏感的神经网络模型;训练神经网络模型;使用模型预测轨迹进行预测;更新神经网络模型。本发明将路网划分为细粒度的网格,利用神经网络对路网整体情况进行抽象,并将信息加入到轨迹预测模型中,提高了轨迹预测的准确率。
-
公开(公告)号:CN116416551A
公开(公告)日:2023-07-11
申请号:CN202310019359.2
申请日:2023-01-06
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种基于跟踪算法的视频图像多人自适应跳绳智能计数方法。在相机的视野实时拍摄多人跳绳的视频,开始前测试者作出举手动作,举手动作后再进行跳绳,通过举手动作触发人脸识别算法人脸识别获得身份;记录初始位置在跳绳过程中跟踪算法实时动态追踪位置,基于视频获取所有测试者的骨骼关键点,根据跟踪算法的位置信息区分骨骼关键点对应的测试者,再进行波形分析得到实时的跳绳计数。本发明通过跟踪算法实时追踪跳绳测试同学的位置;多人跳绳测试的信号分开触发,多人分别计数,可实现动态和静态的一至多人的同时跳绳测试,能更好适用于实际复杂场景,能过滤非跳绳测试人员的干扰,使用方便且精度高。
-
公开(公告)号:CN112991407A
公开(公告)日:2021-06-18
申请号:CN202110358528.6
申请日:2021-04-02
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种基于非局部操作的点云配准方法。首先设计能够捕获点云非局部区域信息的非局部操作,增强点云自身结构信息;同时设计能处理两片不同点云的交叉非局部操作,增强两片待匹配点云之间的关键匹配信息;然后设计同时处理两片待匹配点云的深度学习网络,通过生成虚拟对应点的方式寻找点云之间的匹配关系;最后利用奇异值分解获得两片待匹配点云之间的旋转变换和平移变换矩阵。本发明提出的基于非局部操作的点云配准方法对噪声、离群点以及不同密度的点云输入具有较强的鲁棒性,能有效避免算法陷入局部最优,提升点云配准算法的效率和精度。
-
公开(公告)号:CN112506876A
公开(公告)日:2021-03-16
申请号:CN202011362702.6
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/174 , G06F16/2455 , G06F16/31
Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。
-
公开(公告)号:CN119988979A
公开(公告)日:2025-05-13
申请号:CN202510160819.2
申请日:2025-02-13
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F18/214 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。
-
公开(公告)号:CN119398018A
公开(公告)日:2025-02-07
申请号:CN202411975829.3
申请日:2024-12-31
Applicant: 浙江大学计算机创新技术研究院
Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。
-
-
-
-
-
-
-
-
-