-
公开(公告)号:CN118657173B
公开(公告)日:2025-01-14
申请号:CN202411136019.9
申请日:2024-08-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/042 , G06N3/045 , G06N3/0495 , G06N3/096 , G06N3/084 , G06F18/241 , G06F40/284
Abstract: 本发明公开了一种知识蒸馏方法和系统,方法包括:获取教师模型在训练集样本上的输出作为软标记训练集;设计学生模型架构和学生模型与教师模型的层对应关系;将训练集或软标记训练集划分为超批次,进行基于主成分分析的第一轮白盒知识蒸馏;进行基于软标记训练集的第二轮黑盒知识蒸馏;测试学生模型性能。本发明利用主成分分析将隐含层大小和架构不同的教师模型和学生模型相互对应,以完成白盒知识蒸馏的方法,使白盒知识蒸馏能被应用在更多学生模型上,便于进一步提高压缩比。本发明蒸馏方法相对白盒知识蒸馏和黑盒知识蒸馏均具有更好的性能。
-
公开(公告)号:CN118657173A
公开(公告)日:2024-09-17
申请号:CN202411136019.9
申请日:2024-08-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/042 , G06N3/045 , G06N3/0495 , G06N3/096 , G06N3/084 , G06F18/241 , G06F40/284
Abstract: 本发明公开了一种知识蒸馏方法和系统,方法包括:获取教师模型在训练集样本上的输出作为软标记训练集;设计学生模型架构和学生模型与教师模型的层对应关系;将训练集或软标记训练集划分为超批次,进行基于主成分分析的第一轮白盒知识蒸馏;进行基于软标记训练集的第二轮黑盒知识蒸馏;测试学生模型性能。本发明利用主成分分析将隐含层大小和架构不同的教师模型和学生模型相互对应,以完成白盒知识蒸馏的方法,使白盒知识蒸馏能被应用在更多学生模型上,便于进一步提高压缩比。本发明蒸馏方法相对白盒知识蒸馏和黑盒知识蒸馏均具有更好的性能。
-
公开(公告)号:CN116909574A
公开(公告)日:2023-10-20
申请号:CN202311154532.6
申请日:2023-09-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F8/41 , G06F16/33 , G06F40/194
Abstract: 本发明提供了一种检索增强的结构化代码生成系统及方法,该结构化代码生成系统包括检索前处理模块、结构信息提取模块和代码生成融合模块,所述检索前处理模块根据自然语言描述来检索到功能相关的代码片段;所述结构信息提取模块对所述检索前处理模块检索到的代码片段进行结构信息的提取;所述代码生成融合模块将输入的自然语言和代码片段进行融合,完成代码生成任务。本发明的有益效果是:本发明在不改变原有模型规模的条件下,增强其泛化性,提升代码生成的能力。
-
-