-
公开(公告)号:CN117172308A
公开(公告)日:2023-12-05
申请号:CN202311003438.0
申请日:2023-08-09
Applicant: 华南理工大学
IPC: G06N3/096 , G06N3/045 , G06N3/0464 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种预训练视觉大模型重编程方法、系统、装置及介质,属于视觉大模型技术领域。其中方法包括:将基础模型的教师提取器进行冻结;使用与下游任务直接相匹配的目标模型的分类器,对基础模型的教师分类器进行重编程,以使基础模型对齐任务;引入投影器,将基础模型中的知识投射到下游任务中。本发明通过重编程和蒸馏的过程,我们可以将预训练模型学习到的通用和高层次的特征和知识迁移到小模型上,从而提高小模型的泛化能力和适应性;可以极大地降低大模型迁移产生的成本代价,无需微调预训练大模型。
-
公开(公告)号:CN117172307A
公开(公告)日:2023-12-05
申请号:CN202311003430.4
申请日:2023-08-09
Applicant: 华南理工大学
IPC: G06N3/096 , G06N3/045 , G06V10/40 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种渐进式视觉大模型知识蒸馏方法、系统、装置及介质,属于知识蒸馏技术领域。其中方法包括:将教师大模型的分类器复制给学生小模型;在学生小模型的特征提取器的输出阶段插入一个尺度对齐层;利用教师大模型的骨干网络,对学生小模型的特征提取器和尺度对齐层进行知识蒸馏;其中训练过程中冻结学生小模型的分类器;同时训练学生小模型的特征提取器和分类器,以改进特征提取器和分类器两个模块的兼容性。本发明基于渐进式知识蒸馏,有助于降低跨模型结构的知识蒸馏训练难度,充分利用预训练教师大模型来提升异构轻量化学生小模型的精度;本发明适用于不同模型结构的知识蒸馏,具有更高的适用性与独立性。
-
公开(公告)号:CN115223209A
公开(公告)日:2022-10-21
申请号:CN202210703685.0
申请日:2022-06-21
Applicant: 华南理工大学
Abstract: 本发明公开了一种生成式无数据量化方法、识别方法、装置及存储介质,其中方法包括:收集目标的数据集,根据所述数据集对全精度神经网络进行预训练,获得全精度预训练模型;根据全精度预训练模型训练知识匹配数据生成器,并生成伪数据作为生成数据;其中,知识匹配数据生成器从全精度预训练模型中挖掘原始数据的分类信息和分布信息;使用所述生成数据驱动全精度模型的量化,获得量化模型;根据知识匹配数据生成器迭代优化量化模型。本发明通过知识匹配数据生成器从全精度预训练模型中挖掘对量化模型有指导作用的知识,如数据类别信息和分布信息,从而提供量化模型的精准度,进而提高物体分类的精准度。本发明可广泛应用于数据处理技术领域。
-
公开(公告)号:CN119940433A
公开(公告)日:2025-05-06
申请号:CN202411964485.6
申请日:2024-12-30
Applicant: 华南理工大学 , 超级机器人研究院(黄埔)
IPC: G06N3/063 , G06F9/50 , G06N3/0455 , G06N5/04
Abstract: 本发明公开了一种基于层级分组注意力的大语言模型加速方法、装置、设备及介质,其中方法包括以下步骤:在大语言模型的推理过程中,将输入序列进行分组处理;对分组后的序列使用组内注意力机制,得到组内注意力;对分组后的序列使用组间注意力机制,得到组间注意力;对组内注意力和组间注意力进行层级化注意力融合,获得当前注意力模块的最终结果。本发明能够大幅降低大语言模型基础模块注意力计算复杂度,大幅减少大语言模型处理超长序列文本所需的显存和推理耗时,从而极大提升推理效率。本发明可广泛应用于自然语言技术领域。
-
公开(公告)号:CN117173267A
公开(公告)日:2023-12-05
申请号:CN202311003434.2
申请日:2023-08-09
Applicant: 华南理工大学
IPC: G06T11/00 , G06V10/774 , G06N3/0475 , G06N3/084
Abstract: 本发明公开了一种基于无数据图像生成的视觉大模型应用方法、装置及介质,属于数据处理技术领域。方法包括:获取场景数据,利用视觉大模型将场景数据映射到大模型训练数据的分布空间中,获得场景数据在每个类别的特征中心;将得到的特征中心进行逐层嵌入到数据生成器模块中,增强数据的表征;基于增强后的特征,利用条件生成器生成伪数据图像,将伪数据图像输入视觉大模型中,得到特定层的特征;对获得的特定层的特征进行约束,并优化条件生成器,以使条件生成器能够生成符合场景数据分布的图像。本发明利用了视觉大模型学习到的潜在数据分布和类别知识,通过训练数据生成器的方式生成伪数据,在完全不需要原始训练数据集的情况下,实现数据的生成。
-
公开(公告)号:CN116974769A
公开(公告)日:2023-10-31
申请号:CN202311063392.1
申请日:2023-08-22
Applicant: 华南理工大学
Abstract: 本发明公开了一种边云协同模型测试时自适应方法、装置及存储介质,属于边缘计算技术领域。其中方法包括:每个边缘设备执行模型推理操作,获取并上传统计信息和逻辑输出至云端;云端对边缘设备上传的信息进行联合估计;云端根据各边缘设备联合统计信息数据生成伪样本;云端根据伪样本优化模型参数,并将优化获得的模型参数下发至边缘设备;边缘设备根据云端下发的模型参数更新本地的模型,并进行后续样本推理操作。本发明通过在云端和边缘设备之间协同进行模型自适应,从而避免在边缘设备上引入额外的计算成本;另外,引入了一种创新的云端模型自适应方案,实现了完全无需在边缘设备上传输原始数据即可进行模型自适应的方式,有效保护了数据隐私。
-
公开(公告)号:CN116681887A
公开(公告)日:2023-09-01
申请号:CN202310499648.7
申请日:2023-05-05
Applicant: 华南理工大学
IPC: G06V10/26 , G06N3/045 , G06N3/08 , G06V10/764 , G06V10/82 , G06V10/774 , G06N5/02
Abstract: 本发明公开了一种图像分类到语义分割的跨任务知识蒸馏方法、装置及介质,其中方法包括:对预训练大模型的结构进行重编码;针对预训练大模型的部分参数进行微调;将训练后的大模型中解码器的参数复制到学生模型的解码器;固定学生模型的解码器,利用预设的损失函数训练学生模型的骨干网络;缩小学习率,利用预设的损失函数,继续训练全部的学生模型,获得最终的语义分割模型,以用于语义分割。本发明解决了在计算资源受限的情况下,难以直接将大模型应用于下游任务的问题,可以使用较小的计算代价提升语义分割模型的性能。本发明可广泛应用于数据处理、模型压缩技术领域。
-
-
-
-
-
-