一种面向大模型安全评测的评测样本自动生成方法及装置

    公开(公告)号:CN119004104A

    公开(公告)日:2024-11-22

    申请号:CN202411083246.X

    申请日:2024-08-08

    Abstract: 本发明提出一种面向大模型安全评测的评测样本自动生成方法和装置,包括:测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。

Patent Agency Ranking