-
公开(公告)号:CN119597870A
公开(公告)日:2025-03-11
申请号:CN202411520919.3
申请日:2024-10-29
Applicant: 航天信息股份有限公司
IPC: G06F16/3329 , G06F16/334 , G06F16/3332 , G06N5/04
Abstract: 本发明公开了一种基于RAG及大语言模型的信息检索方法及系统,属于智能办公技术领域。本发明方法,包括:采用长短混合粒度法及预设的拆条策略,对不同类型的文档进行解析,以得到针对所述不同类型的文档,长短两种粒度的文本片段,基于所述长短两种粒度的文本片段,构建长短混合粒度知识库;当收到用户问题时,基于大语言模型使用多轮查询重写机制,将所述用户问题调整为具体查询语句;以所述具体查询语句作为检索语句,在所述长短混合粒度知识库中,使用检索增强生成技术RAG进行检索,获取检索结果,并按照检索结果中知识的发布日期,对所述检索结果进行排序,优先展示排序靠前的检索结果。本发明的应用提升了问答检索查询的精确度。
-
公开(公告)号:CN120046608A
公开(公告)日:2025-05-27
申请号:CN202411928227.2
申请日:2024-12-25
Applicant: 航天信息股份有限公司
IPC: G06F40/284 , G06F40/30 , G06F16/334 , G06F16/332 , G06N3/0455 , G06Q40/12
Abstract: 本发明公开了一种基于大模型的财税问答敏感信息识别方法及系统,其中方法包括:获取财税提问数据,并对获取的所述财税提问数据进行处理;对经过处理的所述财税提问数据,通过建立的汉语拼音敏感词Trie树进行关键违禁词检测;当判断出所述财税提问数据不存在关键违禁词时,通过经过训练的财税大模型中的违规语义对违规敏感词进行检测;当所述财税大模型的输出中未检测出违规敏感词时,将所述财税提问数据输出至正常问答系统。本发明通过训练得到的财税大模型对财税违规导向问答进行筛查,本发明构造了汉语拼音敏感词Trie树以及通过训练大模型的语义理解能力提升检测效果,实现敏感文本的识别。
-
公开(公告)号:CN119991316A
公开(公告)日:2025-05-13
申请号:CN202411841023.5
申请日:2024-12-13
Applicant: 航天信息股份有限公司
IPC: G06Q40/12 , G06F18/10 , G06F18/2431 , G06F18/214
Abstract: 本发明公开了一种基于财税大模型的入账凭证自动生成方法及装置。方法包括:对收集的财务数据进行数据预处理,获取有效财务数据集;基于有效财务数据集对财税大模型进行继续预训练,获取具备财税知识的财务大模型,并基于提示语工程和GPT4对有效财务数据集进行预标注,获取带有标注信息的样本数据集;根据样本数据集对具备财税知识的财务大模型进行指令微调,得到具备关键要素抽取功能以及凭证生成功能的财务大模型;利用关键要素抽取功能对待生成凭证输入数据进行关键要素抽取,获取待生成凭证输入数据的关键要素;利用凭证生成模型根据预先生成的凭证生成指令对关键要素进行凭证生成,获取待生成凭证输入数据对应的入账凭证。
-
公开(公告)号:CN117668506A
公开(公告)日:2024-03-08
申请号:CN202311747478.6
申请日:2023-12-18
Applicant: 航天信息股份有限公司
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/08
Abstract: 本申请提供一种针对大语言模型的评估方法、模型和计算机存储介质,评估方法包括:根据预先存储的数据元信息和所述大语言模型的待测项目,筛选采集的多个文本数据集以组成测评集合,每个文本数据集包括多条测评数据;将每一条测评数据多次输入被测大语言模型,并对应获得多次输出结果;基于每一条测评数据对应的标准结果,对每一条测评数据对应的多次输出结果进行评分,以获得每一条测评数据对应的评分结果,所述评分结果包括正确率得分和一致性得分;综合所述多条测评数据各自的评分结果,计算并获得针对所述大语言模型的评估结果。如此,测评集合既能满足待测项目的需求,又数据量较小,同时借助自动评估可以提高测评效率。
-
公开(公告)号:CN120047170A
公开(公告)日:2025-05-27
申请号:CN202411928226.8
申请日:2024-12-25
Applicant: 航天信息股份有限公司
IPC: G06Q30/0201 , G06F40/186 , G06F16/3329
Abstract: 本发明公开了一种基于大模型生成企业经营分析报告的方法及系统,其中方法包括:获取目标单位经营相关的文档数据,将所述文档数据解析为适应于大模型的markdown格式数据;获取数据库中预存的相关prompt;基于所述prompt,通过加载所述markdown格式数据,组装为向所述大模型提出的问题;根据配置的并发数,基于所述大模型提出的问题,开启多线程向所述大模型的提问;通过所述大模型基于所述向所述大模型的提问抽取信息,生成问答结果;将所述问答结果填写至所述目标单位的经营分析报告模板文件,生成预设格式的经营分析报告。
-
-
-
-