一种基于文本特征和语法规则的PDF全自动标引系统及方法

    公开(公告)号:CN112307718B

    公开(公告)日:2021-05-11

    申请号:CN202011339681.6

    申请日:2020-11-25

    Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。

    一种基于文本特征和语法规则的PDF全自动标引系统及方法

    公开(公告)号:CN112307718A

    公开(公告)日:2021-02-02

    申请号:CN202011339681.6

    申请日:2020-11-25

    Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。

Patent Agency Ranking