-
公开(公告)号:CN119961436A
公开(公告)日:2025-05-09
申请号:CN202510139067.1
申请日:2025-02-08
Applicant: 大连理工大学 , 国投智能(厦门)信息股份有限公司
IPC: G06F16/334 , G06F40/30 , G06F40/186 , G06N20/00 , G06N3/045 , G06N3/08 , G06F16/35 , G06F18/214
Abstract: 本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。