Patent search ap:("北京大学(天津滨海)新一代信息技术研究院" OR "燕溪智能(无锡)技术有限公司") AND inv:"刘业涛" Page 1

1.

发明公开
面向政务领域大语言模型的数据筛选法、电子设备和介质审中-实审

公开(公告)号：CN119416878A

公开(公告)日：2025-02-11

申请号：CN202411417952.3

申请日：2024-10-11

Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司

Inventor： 王亚沙 , 赵俊峰 , 马钧轶 , 初旭 , 马连韬 , 朱润川 , 李小翠 , 李方平 , 刘业涛 , 谢更明

IPC: G06N5/022 , G06N5/04 , G06F18/23

Abstract: 本发明属于计算机自然语言技术领域，公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质，面向政务领域大语言模型的训练数据筛选法包括：获取基于政务领域的原始数据集；基于原始数据集训练得到打分模型；调用打分模型对原始数据集进行质量评估，得到质量数据集；根据质量数据集得到种子数据集；根据种子数据集得到训练数据集。本发明基于原始数据集训练打分模型，使得打分模型对大语音模型有更好的适应性，通过打分模型用于评估指令的质量，使得筛选出的训练数据更为精准。

2.

发明公开
面向知识检索的政务文档增强生成方法、电子设备和介质审中-实审

公开(公告)号：CN119416776A

公开(公告)日：2025-02-11

申请号：CN202411417954.2

申请日：2024-10-11

Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司

Inventor： 王亚沙 , 赵俊峰 , 马钧轶 , 初旭 , 马连韬 , 汤金弋 , 李小翠 , 李方平 , 刘业涛 , 谢更明

IPC: G06F40/258 , G06F40/30 , G06F40/166 , G06F16/31

Abstract: 本发明属于自然语言处理技术领域，公开了一种面向知识检索的政务文档增强生成方法、电子设备和介质，面向知识检索的政务文档增强生成方法包括：识别出政务文档的标题；将文本按标题进行切分，得到多个语义完整的文本块；对语义完整的文本块进行语义切分，得到多个中粒度文本块，中粒度文本块为符合预设长度的文本块；根据多个中粒度文本块建立索引。本发明通过识别出标题，以标题结构切分文本，能够有效地将文本按照篇章结构进行第一层级的语义切分，保证了内部的语义关联性和完整性，提高了检索的准确性。

Patent Agency Ranking