一种预训练视觉大模型重编程方法、系统、装置及介质

    公开(公告)号:CN117172308A

    公开(公告)日:2023-12-05

    申请号:CN202311003438.0

    申请日:2023-08-09

    Abstract: 本发明公开了一种预训练视觉大模型重编程方法、系统、装置及介质,属于视觉大模型技术领域。其中方法包括:将基础模型的教师提取器进行冻结;使用与下游任务直接相匹配的目标模型的分类器,对基础模型的教师分类器进行重编程,以使基础模型对齐任务;引入投影器,将基础模型中的知识投射到下游任务中。本发明通过重编程和蒸馏的过程,我们可以将预训练模型学习到的通用和高层次的特征和知识迁移到小模型上,从而提高小模型的泛化能力和适应性;可以极大地降低大模型迁移产生的成本代价,无需微调预训练大模型。

    一种面向吞咽造影分析的半监督关键点定位方法及设备

    公开(公告)号:CN119942049A

    公开(公告)日:2025-05-06

    申请号:CN202411922583.3

    申请日:2024-12-25

    Abstract: 本发明公开了一种面向吞咽造影分析的半监督关键点定位方法及设备,其中方法包括:获取并对吞咽造影图像进行标注,获得标注数据;设计联合优化策略,将标注数据的监督损失和未标注数据的自监督一致性损失集成在统一的训练框架中;利用未标注数据生成伪标签,并在模型训练过程中动态更新伪标签,利用有监督数据与无监督数据对模型进行联合训练;构建语义引导模块,用于辅助模型更精准地捕获关键点区域的特征;在视频处理阶段引入卡尔曼滤波算法,通过融合多帧的关键点预测结果,以实现关键点时序校准。本发明通过引入语义引导模块,增强了模型对关键点区域特征的捕获能力,并通过卡尔曼滤波优化时序一致性,有效提升了关键点定位的精度与鲁棒性。

Patent Agency Ranking