-
公开(公告)号:CN119416878A
公开(公告)日:2025-02-11
申请号:CN202411417952.3
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
Abstract: 本发明属于计算机自然语言技术领域,公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质,面向政务领域大语言模型的训练数据筛选法包括:获取基于政务领域的原始数据集;基于原始数据集训练得到打分模型;调用打分模型对原始数据集进行质量评估,得到质量数据集;根据质量数据集得到种子数据集;根据种子数据集得到训练数据集。本发明基于原始数据集训练打分模型,使得打分模型对大语音模型有更好的适应性,通过打分模型用于评估指令的质量,使得筛选出的训练数据更为精准。
-
公开(公告)号:CN119416776A
公开(公告)日:2025-02-11
申请号:CN202411417954.2
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
IPC: G06F40/258 , G06F40/30 , G06F40/166 , G06F16/31
Abstract: 本发明属于自然语言处理技术领域,公开了一种面向知识检索的政务文档增强生成方法、电子设备和介质,面向知识检索的政务文档增强生成方法包括:识别出政务文档的标题;将文本按标题进行切分,得到多个语义完整的文本块;对语义完整的文本块进行语义切分,得到多个中粒度文本块,中粒度文本块为符合预设长度的文本块;根据多个中粒度文本块建立索引。本发明通过识别出标题,以标题结构切分文本,能够有效地将文本按照篇章结构进行第一层级的语义切分,保证了内部的语义关联性和完整性,提高了检索的准确性。
-