-
公开(公告)号:CN116050374A
公开(公告)日:2023-05-02
申请号:CN202310004653.6
申请日:2023-01-03
Applicant: 武汉大学
IPC: G06F40/189 , G06F18/22 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种跨域跨源的数据对齐方法、系统及电子设备,方法首先输入待对齐的多组表格数据;然后提取数据中的键值对以及两者在表格中的位置;接着使用数据多模态表示模型,生成键、值、视觉位置的向量表达;计算来自不同数据的向量表达的语义距离;最后对不同数据之间的语义距离进行评价,确定对齐结果。本发明在使用键之间的配对之外,增加考虑值的匹配情况,增强现有技术中键的匹配。本发明在本文表示之外,融合了表格视觉结构作为键值对的语义表示的一部分,突破了现有技术仅采用单模态信息进行匹配的限制。
-
公开(公告)号:CN108415887A
公开(公告)日:2018-08-17
申请号:CN201810131230.X
申请日:2018-02-09
Applicant: 武汉大学
Abstract: 本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
-
公开(公告)号:CN117634447A
公开(公告)日:2024-03-01
申请号:CN202311572963.4
申请日:2023-11-22
Applicant: 武汉大学
IPC: G06F40/186 , G06F40/169
Abstract: 本发明公开了一种细粒度标注的文档版式分析数据集的自动生成方法及系统,由仿真论文生成和细粒度标注信息生成两个阶段组成。第一阶段包括基于上下文无关语法构建一种可以生成论文框架latex文件的系统;从真实论文数据中抽取作者、图像、表格和公式插入到latex文件中;选取若干期刊的cls文件加入源码,使系统可以生成版式丰富且包含真实论文中提取的元数据的仿真论文。第二阶段在Latex文件中对各个文档组成结构添加不同颜色的标注并使用计算机视觉算法获得其坐标,即获得了细粒度标注的文档版式分析数据集。本发明的优点为:针对文档版式分析任务,将数据标注转为标注数据的生成,大量节省了数据标注的人力物力,且生成的仿真论文与真实论文有高度一致性。
-
公开(公告)号:CN108415887B
公开(公告)日:2021-04-16
申请号:CN201810131230.X
申请日:2018-02-09
Applicant: 武汉大学
IPC: G06F40/151 , G06F40/189 , G06F16/11
Abstract: 本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
-
-
-