-
公开(公告)号:CN116861014B
公开(公告)日:2024-01-26
申请号:CN202311132052.X
申请日:2023-09-05
Applicant: 联通在线信息科技有限公司
IPC: G06F16/51 , G06F16/583 , G06F16/58 , G06V30/40 , G06V30/14 , G06F40/186 , G06F40/232
Abstract: 本发明属于自然语言处理技术领域,提供一种基于预训练语言模型的图像信息抽取方法及装置,该方法包括:建立提示库,基于问题类型和应用场景构建prompt结构模版;输入待处理文字图片,识别文字元素和各文字元素的坐标位置信息;选取相适配的prompt结构模版,根据所识别的文字元素和各文字元素的坐标位置信息生成当前检索信息;将当前检索信息输入预训练语言模型,进行文本纠错和关系提取,以输出信息提取结果,在预训练语言模型的基础上进行P‑tuning训练以自动更新所述prompt结构模版。实现了从输入文字图像到输出文字结果全流程自动化,实现了噪声抑制和纠错,减少了人工工作量,提升了信息抽取的准确率和效率。
-
公开(公告)号:CN119583724A
公开(公告)日:2025-03-07
申请号:CN202411598326.9
申请日:2024-11-11
Applicant: 联通在线信息科技有限公司
Abstract: 本申请请求保护一种图像敏感信息保护方法,包括如下步骤:步骤1:识别原始图像中的文本块,并识别文本块中的文本信息及在图像中的位置信息;步骤2:判断所述文本信息是否涉及敏感信息,若存在敏感信息,则询问是否进行脱敏处理;步骤3:若选择脱敏处理,则根据脱敏规则对所述敏感信息进行脱敏处理,根据所述位置信息输出符合安全要求的脱敏信息,并根据需要设置查看条件;步骤4:展示带有脱敏信息的图像,并通过执行查看条件查看所述敏感信息。通过引入注意力机制来提高模型对重要特征的关注度,面对不同图像文本信息仍能保持准确度。当使用该方法识别出图像中的敏感信息后,可主动选择对敏感信息的保护或展示,并需解锁才能显示完整信息。
-
公开(公告)号:CN119295814A
公开(公告)日:2025-01-10
申请号:CN202411351440.1
申请日:2024-09-26
Applicant: 联通在线信息科技有限公司
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/80
Abstract: 本申请公开了小样本图像分类方法、装置及电子设备,属于图像处理技术领域,该方法:获取原始类别描述文本,基于生成式语言模型确定目标类别描述文本;基于所述目标类别描述文本和样本图像,得到类别编码;获取待分类图像,对所述待分类图像进行编码,得到待分类图像编码;基于所述类别编码和所述待分类图像编码,采用距离度量算法计算所述待分类图像的类别概率,并确定分类结果。本方法不仅能够显著减少对大量标注数据的依赖,还能通过灵活的类别定义适应动态的应用需求,提高了图像分类的准确率。
-
公开(公告)号:CN119248219A
公开(公告)日:2025-01-03
申请号:CN202411154087.8
申请日:2024-08-21
Applicant: 联通在线信息科技有限公司
IPC: G06F3/16 , G06F18/25 , G06N3/0442 , G06N3/08
Abstract: 本发明属于人工智能技术领域,提供一种基于融合特征的自动音量调节方法和系统。该方法包括:获取历史时间特征、距离特征、光线特征、噪声特征,形成数值特征;从监控视频数据中按指定方式抽取关键帧图像,输入人体检测模型,以获得视觉特征,所述视觉特征包括人体面部、坐姿情况、学习状态;基于所述视觉特征和数值特征进行融合处理,构建音量调整模型,并通过优化模型参数来优化所述音量调整模型,所述融合处理包括形成深度融合特征;将当前时间的数值特征和基于当前关键帧图像所得到的视觉特征,输入所述音量调整模型,得到预测音量值。本发明根据用户行为、情绪状状态、学习状态等有效信息所得到的深度融合特征,为用户更有效自动调节音量。
-
公开(公告)号:CN119380350A
公开(公告)日:2025-01-28
申请号:CN202411318781.9
申请日:2024-09-21
Applicant: 联通在线信息科技有限公司
IPC: G06V30/148 , G06V10/26 , G06V20/70 , G06V30/414 , G06V30/19
Abstract: 本发明属于图像处理技术领域,具体涉及一种基于融合版面结构与语义知识的手写体消除方法和系统。该方法包括:将待处理文档图像输入语义分割模型,对待处理文档图像进行逐个像素点分割,消除手写体,得到第一中间文档图像;利用版面分析模型确定所述第一中间文档图像中的版面结构信息和文本信息以得到用于印刷体还原的还原信息;对所述还原信息中的文本块进行纠错,得到第二中间文档图像;对所述第二中间文档图像进行印刷体还原,以输出仅包含印刷体的文本图像。本发明能针对字体缺失、漏字、错误字体、进行有效修复,解决了因受到拍摄条件和模型消除效果的影响。
-
公开(公告)号:CN119273983A
公开(公告)日:2025-01-07
申请号:CN202411349349.6
申请日:2024-09-26
Applicant: 联通在线信息科技有限公司
IPC: G06V10/764 , G06V20/70 , G06V10/82 , G06F40/295 , G06N3/0442 , G06N3/08
Abstract: 本申请公开了一种知识引导的图像搜索召回方法、系统及服务器,属于信息技术领域,包括步骤1:图像存储至云存储系统中时,采用Chinese‑CLIP模型的视觉编码器提取图像的图像语义特征向量,并将图像语义特征向量存入数据库中;步骤2:输入搜索语句时,采用BERT模型对搜索语句做实体识别,抽取出搜索语句中的所有实体;步骤3:将所述实体与中文WordNet知识库中的词进行匹配,获取所有实体的概念层级;步骤4:根据所述概念层级,归一化计算得到相似度阈值;步骤5:提取搜索语句的文本语义特征向量,与所述图像语义特征向量进行相似度计算,基于所述相似度阈值得到召回结果。本方法能够有效提高图像搜索的召回率与准确率。
-
公开(公告)号:CN117763175A
公开(公告)日:2024-03-26
申请号:CN202311515168.1
申请日:2023-11-14
Applicant: 联通在线信息科技有限公司
IPC: G06F16/53 , G06F16/532 , G06F16/538 , G06F16/51 , G06F16/55 , G06F16/903 , G06V40/16 , G06V10/762 , G06V30/10 , G06V20/70 , G06V10/80 , G06F40/30 , G06F40/289
Abstract: 本发明涉及一种融合异构知识的多策略图像检索方法及系统,属于图像检索技术领域,该方法包括:采集图像,采用不同的策略分别对各个图像分别进行相应处理,并将处理结果存储在数据库中;用户输入查询文本,对查询文本进行语义特征提取或预处理,基于语义特征提取结果或预处理结果匹配相应的检索结果集;获取检索结果集之间的交集以及检索结果集中任意两个之间的交集,基于检索结果集之间的交集以及检索结果集中任意两个之间的交集形成总结果集。本申请提供的方法及系统,可深入挖掘图像中的潜在语义信息,从而提高检索的召回率,更加准确理解用户查询意图,此外对检索结果集进行重排序,确保在满足检索相关性的基础上,优先展示最相关的信息。
-
公开(公告)号:CN117854082A
公开(公告)日:2024-04-09
申请号:CN202311625963.6
申请日:2023-11-30
Applicant: 联通在线信息科技有限公司
IPC: G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06F40/30
Abstract: 本申请公开了一种基于跨模态大模型的图像信息抽取方法、系统及存储介质,属于属于图像信息抽取领域,包括如下步骤:步骤1:采用小型关键信息抽取模型从输入的原始图像中进行信息的初步抽取得到关键信息;步骤2:将所述关键信息以及所述原始图像输入跨模态大模型中,由跨模态大模型对所述关键信息进行优化和矫正后输出最终的图像信息。通过本方案实现了从输入文字图像到输出文字结果全流程自动化,并且利用跨模态大模型中蕴含的丰富知识加深对图片的理解,对于小型关键信息抽取模型的识别结果进行二次审核和加工了,实现了噪声抑制和纠错,大大减少人工工作量,提升信息抽取的准确率和效率。
-
公开(公告)号:CN116861014A
公开(公告)日:2023-10-10
申请号:CN202311132052.X
申请日:2023-09-05
Applicant: 联通在线信息科技有限公司
IPC: G06F16/51 , G06F16/583 , G06F16/58 , G06V30/40 , G06V30/14 , G06F40/186 , G06F40/232
Abstract: 本发明属于自然语言处理技术领域,提供一种基于预训练语言模型的图像信息抽取方法及装置,该方法包括:建立提示库,基于问题类型和应用场景构建prompt结构模版;输入待处理文字图片,识别文字元素和各文字元素的坐标位置信息;选取相适配的prompt结构模版,根据所识别的文字元素和各文字元素的坐标位置信息生成当前检索信息;将当前检索信息输入预训练语言模型,进行文本纠错和关系提取,以输出信息提取结果,在预训练语言模型的基础上进行P‑tuning训练以自动更新所述prompt结构模版。实现了从输入文字图像到输出文字结果全流程自动化,实现了噪声抑制和纠错,减少了人工工作量,提升了信息抽取的准确率和效率。
-
-
-
-
-
-
-
-