一种基于迭代数据增强策略提升大模型微调效果的方法和装置

    公开(公告)号:CN119988979A

    公开(公告)日:2025-05-13

    申请号:CN202510160819.2

    申请日:2025-02-13

    Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。

    多智能体代理的数据库内的机器学习特征生成方法

    公开(公告)号:CN119151016B

    公开(公告)日:2025-05-13

    申请号:CN202411650247.8

    申请日:2024-11-19

    Abstract: 本申请涉及一种多智能体代理的数据库内的机器学习特征生成方法,包括:根据历史特征集合在数据库内的机器学习模型中的性能指标,确定第一特征集合和第一特征集合的特征描述;根据机器学习任务和历史特征集合,得到第一特征集合对应的特征提示;获取数据库内的大语言模型根据第一特征集合、特征描述和特征提示生成的新特征,并结合第一特征集合和新特征得到第二特征集合;根据历史特征集合和第二特征集合在机器学习模型中的性能指标,确定第三特征集合;分解第三特征集合,直至分解得到的特征集合与第三特征集合匹配,根据分解结果得到执行机器学习任务所需的第四特征集合。采用本方法能够解决数据库内执行机器学习任务困难且准确性低的问题。

    基于时空分布变化的伪造图片鉴别方法和装置

    公开(公告)号:CN119295841B

    公开(公告)日:2025-05-02

    申请号:CN202411818625.9

    申请日:2024-12-11

    Applicant: 浙江大学

    Abstract: 基于时空分布变化的伪造图片鉴别方法和装置,其方法包括:步骤1:获取任务训练数据,将其划分为训练集和验证集;采用所述训练数据,使用去噪扩散隐式模型去噪采样过程获得相邻噪声图的时序变化数据;获得每个候选判别因子DFactor和时间序列数据#imgabs0#之间的距离,基于KL散度的损失函数从候选DFactor的集合#imgabs1#中获得固定长度为#imgabs2#的最佳DFactor判别因子;采用最佳DFactor判别因子将时序变化数据构建成有向加权的演化图#imgabs3#;采用有向加权的演化图,学习所述时间序列的特征表示;将特征表示与对应的真假标签作为输入,训练分类器,实现伪造图片鉴别。本发明在图片伪造鉴别领域引入时序信息,不依赖于预训练加噪模型,在实际应用场景中有很好的泛化能力。

    一种基于注意力特征信息的BERT模型融合方法

    公开(公告)号:CN114580660B

    公开(公告)日:2025-04-01

    申请号:CN202210176600.8

    申请日:2022-02-25

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于注意力特征信息的BERT模型融合方法,该方法利用每个原模型对输入文本的隐藏表示信息,来计算每个原模型的权重,然后利用每个原模型的权重信息,对原模型的注意力特征信息进行加权融合,最后利用融合后的注意力特征信息对新模型进行调整,提高新模型的表现效果。该方法可以充分利用BERT模型的注意力特征信息,提高融合后BERT模型的表现效果。相比于其他融合方法,本方法可以有效地完善融合后模型的注意力特征信息,使得融合后的模型对文本的注意力特征更加完整,进而提高融合后模型的表现效果。

    基于混合量子算法的路径优化方法、装置、计算机设备和存储介质

    公开(公告)号:CN119398289A

    公开(公告)日:2025-02-07

    申请号:CN202411268070.5

    申请日:2024-09-10

    Abstract: 本申请涉及一种基于混合量子算法的路径优化方法、装置、计算机设备和存储介质,其中,该方法包括:获取待优化路径的无向完全加权图的权重邻接矩阵;将权重邻接矩阵输入到预设的量子电路中进行优化,得到第一候选解和对应的第一权重;其中,在量子电路的编码与剪枝的优化过程中,将所有候选解划分为多个步骤;将旅行商在每个步骤中的选择,编码到量子电路中,执行相应的剪枝,以形成包含所有候选解的均匀叠加态;根据第一权重和预设的第一阈值,更新第一候选解,得到目标路径。通过本申请,解决了相关技术中路径规划的效率低下的问题,有效减少编码候选解所需的量子资源,实现在精确规划路径的同时,能够提高路径规划效率。

    一种二维表格数据多模态模型的设计和训练方法

    公开(公告)号:CN119398018A

    公开(公告)日:2025-02-07

    申请号:CN202411975829.3

    申请日:2024-12-31

    Abstract: 本发明公开了一种二维表格数据多模态模型的设计和训练方法。本发明首先设计二维表格数据多模态模型,其包括表格表征模块,所述表格表征模块由多个串行的双向注意力模块组成;通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互,捕获全局结构化表格语义;然后预训练表格表征模块,使用大量原始表格数据来训练表格表征模块,使其能够输出准确的表格表征信息;最后对表格表征模块和大语言模型解码器进行对齐训练,采用表格表征模块和大语言模型解码器进行联合监督微调。本发明能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务,有效提升二维表格问答、代码生成等任务的效果和性能。

    图像标签标注方法、装置、计算机设备及存储介质

    公开(公告)号:CN119360077A

    公开(公告)日:2025-01-24

    申请号:CN202411297222.4

    申请日:2024-09-14

    Abstract: 本申请涉及一种图像标签标注方法、装置、计算机设备及存储介质。所述方法包括:获取图像信息,图像信息包括图像数据、文本数据以及图像标签,图像标签包括第一类别标记信息;基于图像编码模型确定图像数据的视觉特征序列,并基于文本编码模型分别确定文本特征序列、类别特征;基于视觉特征序列以及文本特征序列确定相似度矩阵,并将相似度矩阵对齐至修正矩阵,以更新图像编码模型,修正矩阵基于图像信息确定;基于更新后的图像编码模型,确定更新后的视觉特征序列,基于更新后的视觉特征序列以及类别特征,确定图像标签的第二类别标记信息;基于第二类别标记信息,对第一类别标记信息中的未知类别进行标注。本申请提高了标签标注准确性、鲁棒性。

    一种基于量子振幅放大技术的近似查询处理优化方法

    公开(公告)号:CN118364006A

    公开(公告)日:2024-07-19

    申请号:CN202410649001.2

    申请日:2024-05-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于量子振幅放大技术的近似查询处理优化方法,属于数据库技术领域。本发明针对采样结果中具有高选择性的组别使用量子振幅放大技术,提高了其采样概率,并执行量子采样过程获取新的采样结果,之后采用新的采样结果进行多轮迭代,逐步采样具有高选择性的组别,扩大其样本大小,减小估计误差。相关实验表明在相同采样率下,该方法进一步优化了近似查询处理的准确度。

    一种结构化数据问答方法、装置及介质

    公开(公告)号:CN118349654A

    公开(公告)日:2024-07-16

    申请号:CN202410527505.7

    申请日:2024-04-29

    Applicant: 浙江大学

    Abstract: 本发明公开一种结构化数据问答方法、装置及介质,包括:获取用户问题,并识别用户意图;解析用户意图,在知识库中检索对应的内容,并对问题进行时间实体抽取和区间判断,以生成提示语句;将所述提示语句转化为数据库的查询语句;根据所述查询语句,在数据库中获取用户问题答复;对所述用户问题答复进行质量评估,若质量评估得到的分数大于预设阈值,则判定答复成功,否则判定为失败;若判定失败,则纠正查询语句并重新进行数据库查询,直至判定成功。本发明的质量评估可对查询结果进行有效筛选,从而保证用户查询交互的准确性和有效性。

Patent Agency Ranking