一种基于RAG及大语言模型的信息检索方法及系统

    公开(公告)号:CN119597870A

    公开(公告)日:2025-03-11

    申请号:CN202411520919.3

    申请日:2024-10-29

    Abstract: 本发明公开了一种基于RAG及大语言模型的信息检索方法及系统,属于智能办公技术领域。本发明方法,包括:采用长短混合粒度法及预设的拆条策略,对不同类型的文档进行解析,以得到针对所述不同类型的文档,长短两种粒度的文本片段,基于所述长短两种粒度的文本片段,构建长短混合粒度知识库;当收到用户问题时,基于大语言模型使用多轮查询重写机制,将所述用户问题调整为具体查询语句;以所述具体查询语句作为检索语句,在所述长短混合粒度知识库中,使用检索增强生成技术RAG进行检索,获取检索结果,并按照检索结果中知识的发布日期,对所述检索结果进行排序,优先展示排序靠前的检索结果。本发明的应用提升了问答检索查询的精确度。

    一种基于知识点扩充的领域知识库构建方法及装置

    公开(公告)号:CN119988539A

    公开(公告)日:2025-05-13

    申请号:CN202411860394.8

    申请日:2024-12-17

    Abstract: 本发明提供一种基于知识点扩充的领域知识库构建方法及装置,所述方法包括根据初始query集合中的每个种子query进行搜索,生成初始知识点数据;基于自定义的二分类模型,对所述初始知识点数据进行分类,滤除与拟构建领域知识库所在的专业领域不相关的知识点数据;根据所述有效知识点数据和自定义的知识库构建收敛条件,确定知识库构建结果,当所述构建结果为继续构建时,基于所述有效知识点数据对所述初始query集合进行扩展和聚类,生成更新后的query集合,并令更新后的query集合为初始query集合后进行重复迭代。所述方法和装置通过采用query搜索和扩充聚类,知识点数据分类模型以及与搜索引擎资源相结合的方式,提高了知识库的覆盖率和更新效率。

    一种基于财税大模型的入账凭证自动生成方法及装置

    公开(公告)号:CN119991316A

    公开(公告)日:2025-05-13

    申请号:CN202411841023.5

    申请日:2024-12-13

    Abstract: 本发明公开了一种基于财税大模型的入账凭证自动生成方法及装置。方法包括:对收集的财务数据进行数据预处理,获取有效财务数据集;基于有效财务数据集对财税大模型进行继续预训练,获取具备财税知识的财务大模型,并基于提示语工程和GPT4对有效财务数据集进行预标注,获取带有标注信息的样本数据集;根据样本数据集对具备财税知识的财务大模型进行指令微调,得到具备关键要素抽取功能以及凭证生成功能的财务大模型;利用关键要素抽取功能对待生成凭证输入数据进行关键要素抽取,获取待生成凭证输入数据的关键要素;利用凭证生成模型根据预先生成的凭证生成指令对关键要素进行凭证生成,获取待生成凭证输入数据对应的入账凭证。

    一种基于大模型智能体的财税复杂问题检索方法及装置

    公开(公告)号:CN119988535A

    公开(公告)日:2025-05-13

    申请号:CN202411841014.6

    申请日:2024-12-13

    Abstract: 本发明公开了一种基于大模型智能体的财税复杂问题检索方法及装置。方法包括:根据检索用户的提问习惯以及预设的问题模式对用户检索的用户问题进行会话上下文补充,获取补充问题描述进行拆解,得到补充问题描述的多个子问题描述,为多个子问题描述动态分配权重,确定各子问题描述的优先级;根据优先级对各子问题描述进行深度检索,获取各子问题描述的知识片段,并对应的子问题描述的相关性,得到相关性结果,根据相关性结果重新生成各子问题描述的精准检索词重新检索,获取检索的最终知识片段;根据用户问题的问题类型、知识背景以及提问风格对最终知识片段进行个性化融合,得到用户问题的问题回答并返回至用户前端。

    一种文本图像的识别方法、装置和设备

    公开(公告)号:CN119625751A

    公开(公告)日:2025-03-14

    申请号:CN202411652432.0

    申请日:2024-11-18

    Inventor: 王千喜 刘坤

    Abstract: 本发明公开了一种文本图像的识别方法、装置和设备,该方法包括:提取接收到的文本图像的第一关键信息;将第一关键信息和预存储关键信息进行比较,得到第一目标文本类别;获取与第一目标文本类别对应的文本模板,基于第一关键信息更新文本模板,得到目标文本;对目标文本中的每个单元的单元信息进行识别校验,在单元信息未通过识别校验的情况下,提取文本图像的第二关键信息,并基于第二关键信息更新目标文本,返回对目标文本中的每个单元的单元信息进行识别校验的步骤,直至目标文本中的每个单元的单元信息通过识别校验,从而避免人工处理造成浪费时间且出错率高的问题,进而提高财税系统电子化管理的效率和准确性。

    一种信息处理方法、装置、电子设备和存储介质

    公开(公告)号:CN119441408A

    公开(公告)日:2025-02-14

    申请号:CN202411562583.7

    申请日:2024-11-04

    Abstract: 本申请涉及人工智能领域,尤其涉及自然语言处理技术领域,提供一种信息处理方法、装置、电子设备和存储介质,提高大语言模型问答结果的准确性。方法包括:接收对象输入的目标问题;将目标问题输入已训练的分类模型中,获取目标问题所属的问题意图;根据问题意图,确定与目标问题对应的处理流程;其中,若问题意图为第一类意图,则处理流程为对目标问题进行中间处理后,将中间处理结果输入财税大模型;若问题意图为第二类意图,则处理流程为将目标问题直接输入财税大模型;将财税大模型的输出结果作为目标问题的答案。由于本申请对目标问题通过分类模型进行分类,可简单高效实现问题意图识别,提高大语言模型问答结果的准确性。

Patent Agency Ranking