Patent search ap:("中国科学院自动化研究所") AND inv:"关伟凡" Page 1

1.

发明授权
一种视觉语言大模型混合量化方法、装置和电子设备有权

公开(公告)号：CN119441513B

公开(公告)日：2025-04-29

申请号：CN202510033310.1

申请日：2025-01-09

Applicant: 中国科学院自动化研究所 , 国网四川省电力公司电力科学研究院

Inventor： 胡庆浩 , 常政威 , 关伟凡 , 程健 , 张凌浩 , 邝俊威

IPC: G06F16/41 , G06F16/43 , G06N20/00

Abstract: 本发明涉及混合量化技术领域，具体涉及一种视觉语言大模型混合量化方法、装置和电子设备，该方法包括：将构建的图像编码器校准集输入预先建立的图像编码器和文本编码器，并从预先定义的混合精度量化的搜索空间中选择量化方案对图像编码器进行训练后量化，基于量化前后图像编码器和文本编码器的输出计算第一量化误差；将多模态校准集输入视觉语言大模型，并从搜索空间中选择量化方案对视觉语言大模型进行混合精度量化，根据量化前后视觉语言大模型的输出计算第二量化误差；将各量化方案及对应的量化误差存入到哈希表中；结合哈希表使用基于策略梯度的强化学习算法来优化生成量化方案的策略。通过哈希表加速量化方案的搜索过程，提高优化效率。

2.

发明授权
基于视觉预训练模型的模仿学习混合样本处理方法及装置有权

公开(公告)号：CN117975190B

公开(公告)日：2024-11-05

申请号：CN202311868899.4

申请日：2023-12-29

Applicant: 中国科学院自动化研究所

Inventor： 关伟凡 , 张希 , 程健

IPC: G06V10/774 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/094

Abstract: 本发明提供一种基于视觉预训练模型的模仿学习混合样本处理方法及装置，该方法包括：获取专家样本集；向次优专家样本添加目标噪声得到噪声专家样本，根据噪声专家样本和最优专家样本得到混合样本集；标定混合样本集的权重系数，对重分布的混合样本集进行预测和评分，再根据评分结果训练策略网络和奖励函数网络，根据目标奖励函数网络对评估数据集的各样本进行评分，得到评估数据集对应的预测排序，以更新重分布的混合样本集中各样本对应的权重系数，最后根据目标策略网络对重分布后的权重系数进行模仿学习，得到优化后的专家样本。本发明所述方法针对品质不一的混合专家样本进行差异化学习，改善数据集样本分布，提升模仿学习智能体的泛化能力。

3.

发明公开
一种视觉语言大模型混合量化方法、装置和电子设备有权

公开(公告)号：CN119441513A

公开(公告)日：2025-02-14

申请号：CN202510033310.1

申请日：2025-01-09

Applicant: 中国科学院自动化研究所 , 国网四川省电力公司电力科学研究院

Inventor： 胡庆浩 , 常政威 , 关伟凡 , 程健 , 张凌浩 , 邝俊威

IPC: G06F16/41 , G06F16/43 , G06N20/00

Abstract: 本发明涉及混合量化技术领域，具体涉及一种视觉语言大模型混合量化方法、装置和电子设备，该方法包括：将构建的图像编码器校准集输入预先建立的图像编码器和文本编码器，并从预先定义的混合精度量化的搜索空间中选择量化方案对图像编码器进行训练后量化，基于量化前后图像编码器和文本编码器的输出计算第一量化误差；将多模态校准集输入视觉语言大模型，并从搜索空间中选择量化方案对视觉语言大模型进行混合精度量化，根据量化前后视觉语言大模型的输出计算第二量化误差；将各量化方案及对应的量化误差存入到哈希表中；结合哈希表使用基于策略梯度的强化学习算法来优化生成量化方案的策略。通过哈希表加速量化方案的搜索过程，提高优化效率。

4.

发明公开
基于视觉预训练模型的模仿学习混合样本处理方法及装置有权

公开(公告)号：CN117975190A

公开(公告)日：2024-05-03

申请号：CN202311868899.4

申请日：2023-12-29

Applicant: 中国科学院自动化研究所

Inventor： 关伟凡 , 张希 , 程健

IPC: G06V10/774 , G06V10/82 , G06N3/0475 , G06N3/045 , G06N3/094

Abstract: 本发明提供一种基于视觉预训练模型的模仿学习混合样本处理方法及装置，该方法包括：获取专家样本集；向次优专家样本添加目标噪声得到噪声专家样本，根据噪声专家样本和最优专家样本得到混合样本集；标定混合样本集的权重系数，对重分布的混合样本集进行预测和评分，再根据评分结果训练策略网络和奖励函数网络，根据目标奖励函数网络对评估数据集的各样本进行评分，得到评估数据集对应的预测排序，以更新重分布的混合样本集中各样本对应的权重系数，最后根据目标策略网络对重分布后的权重系数进行模仿学习，得到优化后的专家样本。本发明所述方法针对品质不一的混合专家样本进行差异化学习，改善数据集样本分布，提升模仿学习智能体的泛化能力。

Patent Agency Ranking