-
公开(公告)号:CN1776673A
公开(公告)日:2006-05-24
申请号:CN200510122890.4
申请日:2005-12-03
Applicant: 福州大学
IPC: G06F17/30
Abstract: 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模块:对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)产生的中间XML文档(3),通过文档解析器读取PDF源文档(1)的内容,并将其转换为规则的XSLT文档;(三)自动抽取模块:接受规则的XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
-
公开(公告)号:CN1687926A
公开(公告)日:2005-10-26
申请号:CN200510039015.X
申请日:2005-04-18
Applicant: 福州大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于XML的PDF文档信息抽取系统的方法,它是一种信息转化的方法,属于信息技术类,其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
-
公开(公告)号:CN100347706C
公开(公告)日:2007-11-07
申请号:CN200510122890.4
申请日:2005-12-03
Applicant: 福州大学
IPC: G06F17/30
Abstract: 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模块:对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)产生的中间XML文档(3),通过文档解析器读取PDF源文档(1)的内容,并将其转换为规则的XSLT文档;(三)自动抽取模块:接受规则的XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
-
-