-
公开(公告)号:CN119169641A
公开(公告)日:2024-12-20
申请号:CN202411271335.7
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的电子数据图像文字问答指令生成方法。方法包括:用多模态大模型对图像的文字进行提取得到文字内容;令多模态大模型对文字信息进行自问答,生成问题和回答;令多模态大模型对问题进行二次回答,并生成回答依据;令多模态大模型判断问答对是否与文字信息相关,将不相关的问答对记为无效;对问答对进行一致性检验;若问题答案前后不一致,将问答对记为无效,删除无效的问答对。本发明使用多模态大模型来自动化地生成大规模、高质量的图像文字问答数据,从而弥补当前以文字为中心的图像问答指令微调数据数量不足、质量较低的现状,且全流程不需要人工标注,节省了大量的人力与时间成本。
-
公开(公告)号:CN119169640A
公开(公告)日:2024-12-20
申请号:CN202411271334.2
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。
-
公开(公告)号:CN119169650A
公开(公告)日:2024-12-20
申请号:CN202411271331.9
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术技术领域,提供了一种基于多模态大模型的序列文字票据图像问答数据生成方法。方法包括:对目标图像内容进行详细描述;令多模态大模型对文字信息进行自问答,生成文字信息的问题以及回答;令多模态大模型对提出的问题进行二次回答并同时推理生成回答的依据或者理由;令多模态大模型判断问答对是否与文字信息相关,并对问答对进行一致性检验;删除不相关和不一致的问答对。本发明使用多模态大模型,实现对小票场景下的图像文字信息问答数据的大规模批量自动化生成。由此解决针对小票的以文字为中心的大规模多模态指令微调数据在数量和质量上的不足,克服获取大规模图文理解问答数据标注高昂的时间和人力成本。
-
-