-
公开(公告)号:CN120011770A
公开(公告)日:2025-05-16
申请号:CN202510140942.8
申请日:2025-02-08
Applicant: 中国科学院自动化研究所
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/0499
Abstract: 本公开关于大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品,包括:将多个样本输入大语言模型,获得每个样本在每个层的表示向量并计算该层的提取率和探测准确率;计算每个样本所包含的每种类型的组成部分的信息流分数并评估该种类型的组成部分作为信息来源的可能性;获取屏蔽每个样本所包含的目标执行操作的操作结果之后的屏蔽预测结果以及屏蔽之前的未屏蔽预测结果并评估目标执行操作对输出结果的影响力。这样,通过计算模型的提取率、探测准确率、信息流分数和历史步骤的因果性影响,为模型在全局可观测的规划任务中具备短期的前瞻性未来决策能力的可解释性提供了理论支持。