一种检索增强生成的文本语义切片方法

    公开(公告)号:CN117852549A

    公开(公告)日:2024-04-09

    申请号:CN202311836363.4

    申请日:2023-12-27

    Abstract: 本发明公开了一种检索增强生成的文本语义切片方法,属于自然语言处理技术领域;包括,步骤S1,设置切片文本的最大长度;步骤S2,遍历一word文档数据集,得到待切分word文档;步骤S3,将待切分word文档转换成pdf文档,以读取待切分word文档中段落的页码位置信息;步骤S4,读取待切分word文档的标题树;步骤S5,根据标题树遍历待切分word文档的所有段落,并根据切片文本的最大长度,对待切分word文档进行切分,得到切片;步骤S6,将切片存入向量库,用于检索增强生成回答。上述技术方案的有益效果是:保证了切片语义的完整性和关联性,实现了检索增强生成回答的完整性、关联性以及全局性,有效提升了问答效果。

Patent Agency Ranking