一种视觉语言大模型混合量化方法、装置和电子设备

    公开(公告)号:CN119441513B

    公开(公告)日:2025-04-29

    申请号:CN202510033310.1

    申请日:2025-01-09

    Abstract: 本发明涉及混合量化技术领域,具体涉及一种视觉语言大模型混合量化方法、装置和电子设备,该方法包括:将构建的图像编码器校准集输入预先建立的图像编码器和文本编码器,并从预先定义的混合精度量化的搜索空间中选择量化方案对图像编码器进行训练后量化,基于量化前后图像编码器和文本编码器的输出计算第一量化误差;将多模态校准集输入视觉语言大模型,并从搜索空间中选择量化方案对视觉语言大模型进行混合精度量化,根据量化前后视觉语言大模型的输出计算第二量化误差;将各量化方案及对应的量化误差存入到哈希表中;结合哈希表使用基于策略梯度的强化学习算法来优化生成量化方案的策略。通过哈希表加速量化方案的搜索过程,提高优化效率。

    深度神经网络的加速与压缩方法及装置

    公开(公告)号:CN108334945B

    公开(公告)日:2020-12-25

    申请号:CN201810088723.X

    申请日:2018-01-30

    Inventor: 程健 胡庆浩

    Abstract: 本发明属于神经网络技术领域,具体涉及一种深度神经网络的加速与压缩方法及装置。旨在解决现有技术对深度神经网络进行压缩和加速占用大量内存并且精度下降的问题。本发明提供深度神经网络的加速与压缩方法,包括获取原始深度神经网络中各层的输入数据与参数矩阵;基于输入数据与参数矩阵,计算原始深度神经网络中各层的二值矩阵与浮点系数;将二值矩阵替换原始深度神经网络各层的参数矩阵,并在原始深度神经网络中构建尺度因子层,基于浮点系数初始化尺度因子层的参数,得到新的深度神经网络。本发明的方案能够将神经网络的网络参数二值化,占用更少的内存且提升精度。

    用于深度神经网络的量化训练方法和系统

    公开(公告)号:CN119476375B

    公开(公告)日:2025-03-25

    申请号:CN202510053059.5

    申请日:2025-01-14

    Abstract: 本发明公开了一种用于深度神经网络的量化训练方法和系统,该方法包括:获取原始神经网络模型和验证数据集,通过层级敏感度评估和拓扑分析生成量化优先级;基于层敏感度矩阵,为各层配置差异化量化参数并建立量化约束;构建误差补偿机制,生成误差补偿策略;执行双尺度自适应量化训练,对前向和反向传播分别采用独立优化的量化策略;根据训练状态和资源约束动态调整量化参数;评估模型性能和资源效率。本发明通过多维度敏感度评估、动态量化策略和系统误差补偿,提升了量化训练的精度和效率,同时保证了部署资源约束的满足。

    用于深度神经网络的量化训练方法和系统

    公开(公告)号:CN119476375A

    公开(公告)日:2025-02-18

    申请号:CN202510053059.5

    申请日:2025-01-14

    Abstract: 本发明公开了一种用于深度神经网络的量化训练方法和系统,该方法包括:获取原始神经网络模型和验证数据集,通过层级敏感度评估和拓扑分析生成量化优先级;基于层敏感度矩阵,为各层配置差异化量化参数并建立量化约束;构建误差补偿机制,生成误差补偿策略;执行双尺度自适应量化训练,对前向和反向传播分别采用独立优化的量化策略;根据训练状态和资源约束动态调整量化参数;评估模型性能和资源效率。本发明通过多维度敏感度评估、动态量化策略和系统误差补偿,提升了量化训练的精度和效率,同时保证了部署资源约束的满足。

    基于低秩量化大模型的预测方法、装置、电子设备、存储介质和计算机程序产品

    公开(公告)号:CN118886453B

    公开(公告)日:2024-11-29

    申请号:CN202411376160.6

    申请日:2024-09-29

    Abstract: 本公开涉及一种基于低秩量化大模型的预测方法、装置、电子设备、存储介质和计算机程序产品,所述基于低秩量化大模型的预测方法包括:获取预测模型,其中,预测模型为大模型;通过将预测模型中的线性层的参数进行低秩分解,得到第一低秩矩阵、第二低秩矩阵、和第三低秩矩阵;基于第一低秩矩阵、第二低秩矩阵、和第三低秩矩阵,构建与线性层对应的量化低秩模块,其中,量化低秩模块依次包含第一激活量化层、第一线性层、尺度缩放层、第二激活量化层、和第二线性层;通过将预测模型中的线性层替换为量化低秩模块,得到压缩后的预测模型;将输入数据输入到压缩后的预测模型,得到与输入数据对应的预测结果。能够解决模型预测推理速度低下的问题。

Patent Agency Ranking