-
公开(公告)号:CN117852549A
公开(公告)日:2024-04-09
申请号:CN202311836363.4
申请日:2023-12-27
Applicant: 公安部第三研究所
IPC: G06F40/30 , G06F40/205 , G06F40/151 , G06F16/332
Abstract: 本发明公开了一种检索增强生成的文本语义切片方法,属于自然语言处理技术领域;包括,步骤S1,设置切片文本的最大长度;步骤S2,遍历一word文档数据集,得到待切分word文档;步骤S3,将待切分word文档转换成pdf文档,以读取待切分word文档中段落的页码位置信息;步骤S4,读取待切分word文档的标题树;步骤S5,根据标题树遍历待切分word文档的所有段落,并根据切片文本的最大长度,对待切分word文档进行切分,得到切片;步骤S6,将切片存入向量库,用于检索增强生成回答。上述技术方案的有益效果是:保证了切片语义的完整性和关联性,实现了检索增强生成回答的完整性、关联性以及全局性,有效提升了问答效果。