-
公开(公告)号:CN119416776A
公开(公告)日:2025-02-11
申请号:CN202411417954.2
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
IPC: G06F40/258 , G06F40/30 , G06F40/166 , G06F16/31
Abstract: 本发明属于自然语言处理技术领域,公开了一种面向知识检索的政务文档增强生成方法、电子设备和介质,面向知识检索的政务文档增强生成方法包括:识别出政务文档的标题;将文本按标题进行切分,得到多个语义完整的文本块;对语义完整的文本块进行语义切分,得到多个中粒度文本块,中粒度文本块为符合预设长度的文本块;根据多个中粒度文本块建立索引。本发明通过识别出标题,以标题结构切分文本,能够有效地将文本按照篇章结构进行第一层级的语义切分,保证了内部的语义关联性和完整性,提高了检索的准确性。