-
公开(公告)号:CN118445386A
公开(公告)日:2024-08-06
申请号:CN202410476274.1
申请日:2024-04-19
Applicant: 浙江工业大学
IPC: G06F16/332 , G06F16/33 , G06F40/16 , G06N5/04
Abstract: 一种基于大语言模型即插即用的跨模态咨询系统设计方法,首先,授权LLMs使用外部工具的API,如搜索引擎、计算器和日历等,通过整合外部工具扩展LLMs的认知边界;其次,设计合适的提示工程,用以准确调用各类API,从而提高LLMs在咨询系统中的应用效果。本发明提高大型语言模型在咨询系统中的应用效果,能够降低大型语言模型LLMs固有限制对咨询系统的影响,更好地结合其他模态信息,以使LLMs能够及时获取最新信息,并赋予它们更为精准的执行数学和逻辑推理的能力。
-
公开(公告)号:CN118447520A
公开(公告)日:2024-08-06
申请号:CN202410476270.3
申请日:2024-04-19
Applicant: 浙江工业大学
IPC: G06V30/412 , G06V30/413 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/045
Abstract: 一种基于多模态大语言模型的分类式政务文档分析方法,首先训练一个Transformer模型用于进行输入问题的理解分类,在得到问题具体类别后通过预设的方案逐步执行各个步骤;先通过文档格式检测将文档中的图片与字符进行位置检测,并根据位置进行图片分割;将分割完成的图片分别通过不同的视觉编码器获取图片信息,并根据分类类别以及其预设的拼接顺序将视觉编码器的输出进行拼接得到视觉向量;在通过编码器后,视觉向量中将存储图片的相关信息,随后利用一个Transformer架构将视觉向量与大语言模型进行连接;最后对大语言模型进行微调。本发明提高针对政务文档进行信息获取的精度。
-