Patent search ap:("北京大学(天津滨海)新一代信息技术研究院" OR "燕溪智能(无锡)技术有限公司") AND inv:"朱润川" Page 1

1.

发明公开
面向政务领域大语言模型的数据筛选法、电子设备和介质审中-实审

公开(公告)号：CN119416878A

公开(公告)日：2025-02-11

申请号：CN202411417952.3

申请日：2024-10-11

Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司

Inventor： 王亚沙 , 赵俊峰 , 马钧轶 , 初旭 , 马连韬 , 朱润川 , 李小翠 , 李方平 , 刘业涛 , 谢更明

IPC: G06N5/022 , G06N5/04 , G06F18/23

Abstract: 本发明属于计算机自然语言技术领域，公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质，面向政务领域大语言模型的训练数据筛选法包括：获取基于政务领域的原始数据集；基于原始数据集训练得到打分模型；调用打分模型对原始数据集进行质量评估，得到质量数据集；根据质量数据集得到种子数据集；根据种子数据集得到训练数据集。本发明基于原始数据集训练打分模型，使得打分模型对大语音模型有更好的适应性，通过打分模型用于评估指令的质量，使得筛选出的训练数据更为精准。

Patent Agency Ranking