一种基于多模态大语言模型的分类式政务文档分析方法

    公开(公告)号:CN118447520A

    公开(公告)日:2024-08-06

    申请号:CN202410476270.3

    申请日:2024-04-19

    Abstract: 一种基于多模态大语言模型的分类式政务文档分析方法,首先训练一个Transformer模型用于进行输入问题的理解分类,在得到问题具体类别后通过预设的方案逐步执行各个步骤;先通过文档格式检测将文档中的图片与字符进行位置检测,并根据位置进行图片分割;将分割完成的图片分别通过不同的视觉编码器获取图片信息,并根据分类类别以及其预设的拼接顺序将视觉编码器的输出进行拼接得到视觉向量;在通过编码器后,视觉向量中将存储图片的相关信息,随后利用一个Transformer架构将视觉向量与大语言模型进行连接;最后对大语言模型进行微调。本发明提高针对政务文档进行信息获取的精度。

Patent Agency Ranking