-
公开(公告)号:CN114780773A
公开(公告)日:2022-07-22
申请号:CN202210253277.X
申请日:2022-03-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/55
Abstract: 本说明书实施例公开了一种文档图片分类方法、装置、存储介质及电子设备,其中,方法包括:获取待分类的目标文档图片的图像信息及文本信息等至少两种模态的信息,将上述至少两种模态的信息进行融合,得到多模态融合信息,从而通过对多模态信息的分析处理实现对目标文档图片的理解和分类。
-
公开(公告)号:CN114898388B
公开(公告)日:2024-05-24
申请号:CN202210312174.6
申请日:2022-03-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/413 , G06V30/148 , G06V10/80 , G06V10/26
Abstract: 本说明书实施例公开了一种文档图片分类方法、装置、存储介质及电子设备,通过不同的分割单元获取每个分割单元对应的文本信息,以及文本信息对应的图像信息,将上述多个文本信息和多个图像信息作为至少两种模态的信息进行编码融合,从而实现对文档图片的理解和分类,也即利用不同的分割单元对应不同的模态信息实现信息之间互补,从而完成对文档图片的理解和分类。
-
公开(公告)号:CN116189201A
公开(公告)日:2023-05-30
申请号:CN202310202854.7
申请日:2023-02-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/19 , G06V30/414 , G06V30/18 , G06V30/14 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/047 , G06N3/09
Abstract: 本说明书实施例提供图像识别方法以及装置,其中所述图像识别方法包括:获取目标凭证图像;将目标凭证图像输入凭证识别模型,通过凭证识别模型的编码单元对目标凭证图像进行编码,获得图像布局特征以及字符特征,通过凭证识别模型的解码单元对图像布局特征和字符特征进行融合,对融合结果进行解码,获得凭证识别模型输出的凭证行序列;对凭证行序列进行格式转换,获得目标凭证图像对应的目标表格。实现了通过编码单元和解码单元的算法框架对目标凭证图像中的图像布局特征以及字符特征进行融合解码,获得凭证识别结果,避免了采用多个模型串联的结构进行凭证识别,缩短了传统凭证识别方法的模型链路,并降低了模型部署的成本。
-
公开(公告)号:CN115797954A
公开(公告)日:2023-03-14
申请号:CN202211513699.2
申请日:2022-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/412 , G06V30/413 , G06V10/82 , G06N3/0464
Abstract: 本说明书实施例公开了一种表格识别方法、装置、电子设备、介质及程序产品。其中,该方法包括:获取包含表格的目标图像,并基于上述目标图像确定上述表格对应的全局关系信息,上述全局关系信息包括表格中各目标文字之间的关系以及各目标单元格之间的关系,以及基于上述全局关系信息确定上述表格对应的局部关系信息,上述局部关系信息包括表格中各第一区域内的各目标文字之间的关系以及该表格中各第二区域内的各目标单元格之间的关系,最后基于上述局部关系信息重构上述目标图像中的表格。
-
公开(公告)号:CN114780773B
公开(公告)日:2024-07-02
申请号:CN202210253277.X
申请日:2022-03-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/55
Abstract: 本说明书实施例公开了一种文档图片分类方法、装置、存储介质及电子设备,其中,方法包括:获取待分类的目标文档图片的图像信息及文本信息等至少两种模态的信息,将上述至少两种模态的信息进行融合,得到多模态融合信息,从而通过对多模态信息的分析处理实现对目标文档图片的理解和分类。
-
公开(公告)号:CN118172783A
公开(公告)日:2024-06-11
申请号:CN202410353969.0
申请日:2024-03-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了图像处理方法及装置,其中,一种图像处理方法包括:获取到文档的多个页面图像和问题后,对各页面图像进行字符识别获得字符信息,一方面对字符信息进行拼接获得的拼接文本进行文本特征提取获得文本特征,另一方面对各页面图像进行视觉特征提取,获得各页面图像的视觉特征,结合文本特征和各页面图像的视觉特征组成的视觉特征序列进行特征融合处理,获得融合特征,基于问题对融合特征进行字符预测,根据字符预测结果确定问题的答案内容。
-
公开(公告)号:CN114898388A
公开(公告)日:2022-08-12
申请号:CN202210312174.6
申请日:2022-03-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/413 , G06V30/148 , G06K9/62 , G06V10/80 , G06V10/26
Abstract: 本说明书实施例公开了一种文档图片分类方法、装置、存储介质及电子设备,通过不同的分割单元获取每个分割单元对应的文本信息,以及文本信息对应的图像信息,将上述多个文本信息和多个图像信息作为至少两种模态的信息进行编码融合,从而实现对文档图片的理解和分类,也即利用不同的分割单元对应不同的模态信息实现信息之间互补,从而完成对文档图片的理解和分类。
-
公开(公告)号:CN114926852A
公开(公告)日:2022-08-19
申请号:CN202210264155.0
申请日:2022-03-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/413 , G06V30/24
Abstract: 本说明书实施例公开了一种表格识别重构方法、装置、设备、介质及程序产品。其中,该方法包括:通过根据包括表格的目标图像进行文字识别得到的上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,以及上述目标图像中的表格进行直线检测得到的至少四条目标线段以及每条上述目标线段对应的位置,重构上述目标图像中的表格。
-
-
-
-
-
-
-