一种基于预训练语言模型的图像信息抽取方法及装置

    公开(公告)号:CN116861014B

    公开(公告)日:2024-01-26

    申请号:CN202311132052.X

    申请日:2023-09-05

    Abstract: 本发明属于自然语言处理技术领域,提供一种基于预训练语言模型的图像信息抽取方法及装置,该方法包括:建立提示库,基于问题类型和应用场景构建prompt结构模版;输入待处理文字图片,识别文字元素和各文字元素的坐标位置信息;选取相适配的prompt结构模版,根据所识别的文字元素和各文字元素的坐标位置信息生成当前检索信息;将当前检索信息输入预训练语言模型,进行文本纠错和关系提取,以输出信息提取结果,在预训练语言模型的基础上进行P‑tuning训练以自动更新所述prompt结构模版。实现了从输入文字图像到输出文字结果全流程自动化,实现了噪声抑制和纠错,减少了人工工作量,提升了信息抽取的准确率和效率。

    图像敏感信息保护方法、服务器及存储介质

    公开(公告)号:CN119583724A

    公开(公告)日:2025-03-07

    申请号:CN202411598326.9

    申请日:2024-11-11

    Abstract: 本申请请求保护一种图像敏感信息保护方法,包括如下步骤:步骤1:识别原始图像中的文本块,并识别文本块中的文本信息及在图像中的位置信息;步骤2:判断所述文本信息是否涉及敏感信息,若存在敏感信息,则询问是否进行脱敏处理;步骤3:若选择脱敏处理,则根据脱敏规则对所述敏感信息进行脱敏处理,根据所述位置信息输出符合安全要求的脱敏信息,并根据需要设置查看条件;步骤4:展示带有脱敏信息的图像,并通过执行查看条件查看所述敏感信息。通过引入注意力机制来提高模型对重要特征的关注度,面对不同图像文本信息仍能保持准确度。当使用该方法识别出图像中的敏感信息后,可主动选择对敏感信息的保护或展示,并需解锁才能显示完整信息。

    小样本图像分类方法、装置及电子设备

    公开(公告)号:CN119295814A

    公开(公告)日:2025-01-10

    申请号:CN202411351440.1

    申请日:2024-09-26

    Abstract: 本申请公开了小样本图像分类方法、装置及电子设备,属于图像处理技术领域,该方法:获取原始类别描述文本,基于生成式语言模型确定目标类别描述文本;基于所述目标类别描述文本和样本图像,得到类别编码;获取待分类图像,对所述待分类图像进行编码,得到待分类图像编码;基于所述类别编码和所述待分类图像编码,采用距离度量算法计算所述待分类图像的类别概率,并确定分类结果。本方法不仅能够显著减少对大量标注数据的依赖,还能通过灵活的类别定义适应动态的应用需求,提高了图像分类的准确率。

    一种基于融合特征的自动音量调节方法和系统

    公开(公告)号:CN119248219A

    公开(公告)日:2025-01-03

    申请号:CN202411154087.8

    申请日:2024-08-21

    Abstract: 本发明属于人工智能技术领域,提供一种基于融合特征的自动音量调节方法和系统。该方法包括:获取历史时间特征、距离特征、光线特征、噪声特征,形成数值特征;从监控视频数据中按指定方式抽取关键帧图像,输入人体检测模型,以获得视觉特征,所述视觉特征包括人体面部、坐姿情况、学习状态;基于所述视觉特征和数值特征进行融合处理,构建音量调整模型,并通过优化模型参数来优化所述音量调整模型,所述融合处理包括形成深度融合特征;将当前时间的数值特征和基于当前关键帧图像所得到的视觉特征,输入所述音量调整模型,得到预测音量值。本发明根据用户行为、情绪状状态、学习状态等有效信息所得到的深度融合特征,为用户更有效自动调节音量。

    基于融合版面结构与语义知识的手写体消除方法和系统

    公开(公告)号:CN119380350A

    公开(公告)日:2025-01-28

    申请号:CN202411318781.9

    申请日:2024-09-21

    Abstract: 本发明属于图像处理技术领域,具体涉及一种基于融合版面结构与语义知识的手写体消除方法和系统。该方法包括:将待处理文档图像输入语义分割模型,对待处理文档图像进行逐个像素点分割,消除手写体,得到第一中间文档图像;利用版面分析模型确定所述第一中间文档图像中的版面结构信息和文本信息以得到用于印刷体还原的还原信息;对所述还原信息中的文本块进行纠错,得到第二中间文档图像;对所述第二中间文档图像进行印刷体还原,以输出仅包含印刷体的文本图像。本发明能针对字体缺失、漏字、错误字体、进行有效修复,解决了因受到拍摄条件和模型消除效果的影响。

    一种知识引导的图像搜索召回方法、系统及服务器

    公开(公告)号:CN119273983A

    公开(公告)日:2025-01-07

    申请号:CN202411349349.6

    申请日:2024-09-26

    Abstract: 本申请公开了一种知识引导的图像搜索召回方法、系统及服务器,属于信息技术领域,包括步骤1:图像存储至云存储系统中时,采用Chinese‑CLIP模型的视觉编码器提取图像的图像语义特征向量,并将图像语义特征向量存入数据库中;步骤2:输入搜索语句时,采用BERT模型对搜索语句做实体识别,抽取出搜索语句中的所有实体;步骤3:将所述实体与中文WordNet知识库中的词进行匹配,获取所有实体的概念层级;步骤4:根据所述概念层级,归一化计算得到相似度阈值;步骤5:提取搜索语句的文本语义特征向量,与所述图像语义特征向量进行相似度计算,基于所述相似度阈值得到召回结果。本方法能够有效提高图像搜索的召回率与准确率。

    基于跨模态大模型的图像信息抽取方法、系统及存储介质

    公开(公告)号:CN117854082A

    公开(公告)日:2024-04-09

    申请号:CN202311625963.6

    申请日:2023-11-30

    Abstract: 本申请公开了一种基于跨模态大模型的图像信息抽取方法、系统及存储介质,属于属于图像信息抽取领域,包括如下步骤:步骤1:采用小型关键信息抽取模型从输入的原始图像中进行信息的初步抽取得到关键信息;步骤2:将所述关键信息以及所述原始图像输入跨模态大模型中,由跨模态大模型对所述关键信息进行优化和矫正后输出最终的图像信息。通过本方案实现了从输入文字图像到输出文字结果全流程自动化,并且利用跨模态大模型中蕴含的丰富知识加深对图片的理解,对于小型关键信息抽取模型的识别结果进行二次审核和加工了,实现了噪声抑制和纠错,大大减少人工工作量,提升信息抽取的准确率和效率。

    一种基于预训练语言模型的图像信息抽取方法及装置

    公开(公告)号:CN116861014A

    公开(公告)日:2023-10-10

    申请号:CN202311132052.X

    申请日:2023-09-05

    Abstract: 本发明属于自然语言处理技术领域,提供一种基于预训练语言模型的图像信息抽取方法及装置,该方法包括:建立提示库,基于问题类型和应用场景构建prompt结构模版;输入待处理文字图片,识别文字元素和各文字元素的坐标位置信息;选取相适配的prompt结构模版,根据所识别的文字元素和各文字元素的坐标位置信息生成当前检索信息;将当前检索信息输入预训练语言模型,进行文本纠错和关系提取,以输出信息提取结果,在预训练语言模型的基础上进行P‑tuning训练以自动更新所述prompt结构模版。实现了从输入文字图像到输出文字结果全流程自动化,实现了噪声抑制和纠错,减少了人工工作量,提升了信息抽取的准确率和效率。

Patent Agency Ranking