-
公开(公告)号:CN116070610A
公开(公告)日:2023-05-05
申请号:CN202111288666.8
申请日:2021-11-02
Applicant: 中兴通讯股份有限公司
IPC: G06F40/183 , G06F40/18
Abstract: 本发明提供一种表格信息提取方法、电子设备和存储介质,所述方法包括:对文档页面进行表格线段提取处理,得到多个线段和与所述线段对应的端点的第一坐标;根据所述端点的第一坐标,确定所述端点对应的点簇;对同一点簇的所述端点进行合并处理,得到所述端点的第二坐标;根据所述多个线段和与所述线段对应的端点的第二坐标,确定表格的至少一个单元格的坐标信息;根据所述单元格的坐标信息,对所述单元格进行内容提取,得到与所述单元格对应的内容信息;根据所述单元格对应的坐标信息和内容信息,生成目标表格。本发明提高了表格解析的精确性和可靠性,对于一些复杂类型的表格也能同样适用,因而具有良好的通用性,提升了用户体验。
-
公开(公告)号:CN116071766A
公开(公告)日:2023-05-05
申请号:CN202111289229.8
申请日:2021-11-02
Applicant: 中兴通讯股份有限公司
IPC: G06V30/412 , G06F40/183 , G06F40/18
Abstract: 本发明提供了一种表格信息提取方法,所述方法包括:获取文档中的多个文本块和多个线条;将预设的表头字段集合与所述文本块进行字符匹配,确定表格的表头区域;根据所述表头区域和所述线条,确定所述表格的内容区域;对所述表头区域中的文本块进行分割,得到多个表头列名;对所述内容区域中的文本块进行分割,得到与所述表头列名对应的记录;根据所述表头列名和所述表头列名对应的所述记录,生成结构化数据。本发明实施例通过解析文档得到文本块和线条,根据预设的表头字段集合和文本块确定表头区域,根据表头和线条确定表格内容,并对表格内容进行分割,得到并生成结构化的表格记录。
-
公开(公告)号:CN118072061A
公开(公告)日:2024-05-24
申请号:CN202211473416.6
申请日:2022-11-22
Applicant: 中兴通讯股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/30 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本申请公开了一种翻拍图像的识别方法、装置、设备及存储介质,属于图像领域,该方法包括:在接收到识别指令时,获取待识别图像;将待识别图像输入至预设的识别模型中,基于识别模型对待识别图像进行处理,确定待识别图像是否为翻拍图像,其中,识别模型对待识别图像先进行噪声处理,再基于噪声处理后的结果进行处理。在本申请中,不直接对待识别图像进行识别是否是翻拍图像,而是先进行噪声处理,再基于噪声处理后的结果进行处理,符合因翻拍而增加了额外的翻拍噪声的规律。先进行噪声处理是直击翻拍主题的,避免了直接识别时所提取的特征是与翻拍无关的干扰特征,即提高了在基于小样本集训练得到的识别模型进行翻拍图像识别时的识别准确度。
-
-