-
公开(公告)号:CN119338321A
公开(公告)日:2025-01-21
申请号:CN202411501247.1
申请日:2024-10-25
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06Q10/0639 , G06F17/18 , G06F18/10 , G06F18/23
Abstract: 本申请涉及人工智能技术领域,提供一种大模型评价方法、系统、设备、存储介质及程序产品,该方法包括:获取待评价的交互大模型的完整会话中各交互轮次的交互数据,从交互数据中提取多个评价维度的评价指标;交互数据包括用户输入的交互文本、交互大模型根据交互文本生成的反馈文本和用户评价;基于评价指标在各评价维度上对交互大模型进行评价,得到交互大模型在各评价维度上的评价得分;对各评价维度的评价得分进行加权求和,得到交互大模型的交互成熟度的评价得分,从而确定基于被评价的交互大模型的对话系统是否具备上线能力。基于多轮交互对交互大模型进行快速完整的多维评价,节省了交互大模型评价所需的人力和时间成本。