-
公开(公告)号:CN119416878A
公开(公告)日:2025-02-11
申请号:CN202411417952.3
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
Abstract: 本发明属于计算机自然语言技术领域,公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质,面向政务领域大语言模型的训练数据筛选法包括:获取基于政务领域的原始数据集;基于原始数据集训练得到打分模型;调用打分模型对原始数据集进行质量评估,得到质量数据集;根据质量数据集得到种子数据集;根据种子数据集得到训练数据集。本发明基于原始数据集训练打分模型,使得打分模型对大语音模型有更好的适应性,通过打分模型用于评估指令的质量,使得筛选出的训练数据更为精准。