开放域Text-to-SQL的多跳表格检索方法、系统、存储介质及设备

    公开(公告)号:CN119719146A

    公开(公告)日:2025-03-28

    申请号:CN202411762024.0

    申请日:2024-12-03

    Abstract: 开放域Text‑to‑SQL的多跳表格检索方法、系统、存储介质及设备,属于Text‑to‑SQL技术领域。为了解决现有的表格检索方法存在因实体和很多不相关表格中实体相似导致的不相关表格被检索到的问题,以及实体可能和相关领域不匹配导致的检索到的表格更加远离相关领域的问题。本发明采用多跳检索,第一跳采用原始的用户问题检索表格,而在之后的跳步中,采用LLM改写的表格化的问题检索表格;并且采用束搜索在每一跳保持多个检索结果,通过每一跳检索阶段结束后计算表格与问题相关的概率,选取多组最有可能的检索结果,和原始的用户问题一起输入给改写阶段;对所有表格进行排序,并据此选取表格进行检索。

    基于聚类的Text-to-SQL示例合成方法、设备以及存储介质

    公开(公告)号:CN119377711A

    公开(公告)日:2025-01-28

    申请号:CN202411492400.9

    申请日:2024-10-24

    Abstract: 本发明属于自然语言处理领域,尤其基于聚类的Text‑to‑SQL示例合成方法、设备以及存储介质。本发明目的是解决现有的方法依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题,采用基于人工标注,获取原示例池;采用聚类方法将步骤一获取的原示例池中的示例划分为N个子示例池;根据划分后的N个子示例池进行合成,得到合成示例池;所述合成示例池包括M个合成示例;将合成示例池加入原示例池中,得到融合示例池,增强示例池多样性,从而降低示例标注的开销,解决了依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题。

    一种基于表达式分解的数值推理方法、系统、存储介质及设备

    公开(公告)号:CN118643813A

    公开(公告)日:2024-09-13

    申请号:CN202410836145.9

    申请日:2024-06-26

    Abstract: 一种基于表达式分解的数值推理方法、系统、存储介质及设备,它属于自然语言处理领域。本发明解决了现有数值推理模型难以处理表格类型的数据的问题。本发明首先构造表格预测任务数据、表格计算任务数据以及别名定位任务数据,将构造的数据作为数值推理模型的预训练数据;利用预训练数据对数值推理模型进行预训练后,获得预训练好的数值推理模型;再基于表达式分解来构造数值推理模型的训练数据;利用构造的训练数据对预训练好的数值推理模型进行训练,获得训练好的数值推理模型;将用户问题作为训练好的数值推理模型的输入,通过训练好的数值推理模型输出对输入问题的回复。本发明方法可以应用于数值推理。

Patent Agency Ranking