一种基于最大差异竞赛实现大语言模型样本的评估方法和装置

    公开(公告)号:CN118569213A

    公开(公告)日:2024-08-30

    申请号:CN202410530635.6

    申请日:2024-04-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于最大差异竞赛实现大语言模型样本的评估方法和装置,包括:指令池生成:从评价基准数据集中提取指令种子,并对指令种子进行演化生成指令池;指令样本选择:基于最大差异竞赛从指令池中选择使任意两个大语言模型的输出语义存在最大差异的指令作为指令样本;人类主观评价:指令样本在不同大语言模型的输出语义提交给人类评价者,并接收人类评价者通过三选一强制方式对输出语义的评价结果;评价排名:利用Elo评价系统整合所有评价结果,并转化为大语言模型指令样本的全球排名,这样可以克服机器评价偏见的同时,提升人类评估的效率和效果。

Patent Agency Ranking