-
公开(公告)号:CN117493712A
公开(公告)日:2024-02-02
申请号:CN202311852456.6
申请日:2023-12-29
Applicant: 浙江华东工程数字技术有限公司 , 中国电建集团华东勘测设计研究院有限公司
IPC: G06F16/954 , G06F16/953 , G06F40/151 , G06F40/258
Abstract: 为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。
-
公开(公告)号:CN117493712B
公开(公告)日:2024-06-21
申请号:CN202311852456.6
申请日:2023-12-29
Applicant: 浙江华东工程数字技术有限公司 , 中国电建集团华东勘测设计研究院有限公司
IPC: G06F16/954 , G06F16/953 , G06F40/151 , G06F40/258
Abstract: 为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。
-