基于多模态大模型的电子数据图像文字问答指令生成方法

    公开(公告)号:CN119169641A

    公开(公告)日:2024-12-20

    申请号:CN202411271335.7

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的电子数据图像文字问答指令生成方法。方法包括:用多模态大模型对图像的文字进行提取得到文字内容;令多模态大模型对文字信息进行自问答,生成问题和回答;令多模态大模型对问题进行二次回答,并生成回答依据;令多模态大模型判断问答对是否与文字信息相关,将不相关的问答对记为无效;对问答对进行一致性检验;若问题答案前后不一致,将问答对记为无效,删除无效的问答对。本发明使用多模态大模型来自动化地生成大规模、高质量的图像文字问答数据,从而弥补当前以文字为中心的图像问答指令微调数据数量不足、质量较低的现状,且全流程不需要人工标注,节省了大量的人力与时间成本。

    基于多模态大模型的序列文字票据图像问答数据生成方法

    公开(公告)号:CN119169650A

    公开(公告)日:2024-12-20

    申请号:CN202411271331.9

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术技术领域,提供了一种基于多模态大模型的序列文字票据图像问答数据生成方法。方法包括:对目标图像内容进行详细描述;令多模态大模型对文字信息进行自问答,生成文字信息的问题以及回答;令多模态大模型对提出的问题进行二次回答并同时推理生成回答的依据或者理由;令多模态大模型判断问答对是否与文字信息相关,并对问答对进行一致性检验;删除不相关和不一致的问答对。本发明使用多模态大模型,实现对小票场景下的图像文字信息问答数据的大规模批量自动化生成。由此解决针对小票的以文字为中心的大规模多模态指令微调数据在数量和质量上的不足,克服获取大规模图文理解问答数据标注高昂的时间和人力成本。

    一种针对医疗多模态大模型的视觉语言特征精细对齐方法

    公开(公告)号:CN119357443A

    公开(公告)日:2025-01-24

    申请号:CN202411381995.0

    申请日:2024-09-30

    Abstract: 本发明涉及人工智能技术领域,提供了一种针对医疗多模态大模型的视觉语言特征精细对齐方法,方法包括:用人工智能大模型对医疗专家知识文本特征进行深度学习和语义理解,生成问答对指令;提取医疗专家知识视觉特征,转化为问答对指令;用问答对指令对医疗多模态大模型进行训练;用人工智能大模型生成医疗图文问答对指令;为医疗多模态大模型引入强化学习,利用医疗图文问答对指令,实现视觉语言特征精细对齐。本发明提出了全自动地生成高质量医疗多模态指令数据的方法,使医疗多模态大模型在各种医学应用中提供准确可靠的输出内容。数据生成的全流程无需人工标注,节省了人力与时间成本。同时减少了模型推理幻觉,提升模型性能。

    基于多模态大模型的手机截屏文本内容问答对生成方法

    公开(公告)号:CN119169640A

    公开(公告)日:2024-12-20

    申请号:CN202411271334.2

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。

    一种适用于深度学习文字识别的显示屏

    公开(公告)号:CN212056473U

    公开(公告)日:2020-12-01

    申请号:CN202020705447.X

    申请日:2020-04-30

    Inventor: 伏凌 魏蛟龙

    Abstract: 本实用新型提供一种适用于深度学习文字识别的显示屏,所述底座上端面的两侧位置固定有侧框,所述侧框的两侧位置连接固定有限位结构,所述底座上端面的中间位置连接固定有防护垫,所述防护垫上端面的两侧位置设置有卡块,所述侧框与开设在外框两侧的滑槽滑动连接,所述外框的中间位置卡接有个人终端,所述滑槽的中间位置开设有限位孔,所述限位孔与限位结构相卡接,通过拉盘的拉动带动滑动块向一侧移动,进而复位弹簧被拉伸,而限位柱伸入到外筒的内部,进而便于将外框从侧框的上侧滑出,进而大大的提高了外框固定的稳定性。

    一种适用于深度学习图像识别的摄像机

    公开(公告)号:CN211531183U

    公开(公告)日:2020-09-18

    申请号:CN202020705466.2

    申请日:2020-04-30

    Inventor: 伏凌 魏蛟龙

    Abstract: 本实用新型提供一种适用于深度学习图像识别的摄像机,所述固定架为截面呈L形的板状结构,所述固定架的右侧端面开设有安装螺孔,所述固定架的上侧位置开设有通孔,所述固定架的下侧端面连接固定有护套且护套的内径与通孔的直径相同,所述护套的侧面安装有安装结构,所述护套的内壁与固定柱的外壁相贴合,所述固定柱的上侧位置经由转轴与摄像机主体相固定,通过设置护套来实现对固定柱的卡接,通过固定盘向一侧移动带动滑动块在外筒的内部进行滑动,进而使得复位弹簧被拉伸,卡柱向靠近外筒的一侧移动,该设计便于工作人员将固定柱从护筒的内部抽出;提高了摄像头主体拆卸的便捷性。

Patent Agency Ranking