-
公开(公告)号:CN119169640A
公开(公告)日:2024-12-20
申请号:CN202411271334.2
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。
-
公开(公告)号:CN119169641A
公开(公告)日:2024-12-20
申请号:CN202411271335.7
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的电子数据图像文字问答指令生成方法。方法包括:用多模态大模型对图像的文字进行提取得到文字内容;令多模态大模型对文字信息进行自问答,生成问题和回答;令多模态大模型对问题进行二次回答,并生成回答依据;令多模态大模型判断问答对是否与文字信息相关,将不相关的问答对记为无效;对问答对进行一致性检验;若问题答案前后不一致,将问答对记为无效,删除无效的问答对。本发明使用多模态大模型来自动化地生成大规模、高质量的图像文字问答数据,从而弥补当前以文字为中心的图像问答指令微调数据数量不足、质量较低的现状,且全流程不需要人工标注,节省了大量的人力与时间成本。
-
公开(公告)号:CN119169650A
公开(公告)日:2024-12-20
申请号:CN202411271331.9
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术技术领域,提供了一种基于多模态大模型的序列文字票据图像问答数据生成方法。方法包括:对目标图像内容进行详细描述;令多模态大模型对文字信息进行自问答,生成文字信息的问题以及回答;令多模态大模型对提出的问题进行二次回答并同时推理生成回答的依据或者理由;令多模态大模型判断问答对是否与文字信息相关,并对问答对进行一致性检验;删除不相关和不一致的问答对。本发明使用多模态大模型,实现对小票场景下的图像文字信息问答数据的大规模批量自动化生成。由此解决针对小票的以文字为中心的大规模多模态指令微调数据在数量和质量上的不足,克服获取大规模图文理解问答数据标注高昂的时间和人力成本。
-
公开(公告)号:CN217778958U
公开(公告)日:2022-11-11
申请号:CN202221894739.8
申请日:2022-07-21
Applicant: 华中科技大学
Abstract: 本实用新型公开了一种基于介电弹性体驱动器的蝴蝶仿生飞行机器人,属于软体机器人及软体驱动技术领域,包括躯干、翅膀,躯干为空腔,空腔的左右两侧分别设置有上下两个开口,空腔内置介电弹性体驱动器和十字形搭载平台,十字形搭载平台包括水平横梁和竖直梁,竖直梁位于水平横梁的中间并向两端等距延伸,竖直梁的上下两端连接有介电弹性体驱动器,介电弹性体驱动器向两侧延伸,分别穿过空腔的4个开口连接到翅膀,翅膀由介电弹性体驱动器驱动上下摆动。本实用新型通过控制器周期性地调节输出电压,控制介电弹性体驱动器驱动软体翅膀进行周期性振动,从而模仿蝴蝶振翅的方式在空中飞行。
-
-
-