结构化文档处理装置和方法

    公开(公告)号:CN1991837A

    公开(公告)日:2007-07-04

    申请号:CN200610164702.9

    申请日:2006-11-14

    CPC classification number: G06F17/2247 G06F17/272

    Abstract: 本发明的目标是提供一种能够使用诸如XML解析器之类的解析器来快速解析数字化的结构化文档的句法解析装置和方法。与实例文档和概要信息有关的统计信息被用于合并允许对结构化文档分段的多个状态转变,由此生成优化的自动机。在合并状态转变中,以ID列表的形式保存连续匹配状态转变,所述ID列表然后用于对连续状态转变数进行计数。此外,统计地获得包括嵌套元素的重复元素出现次数的模式。通过使用统计方法来解决XML中空白的变化。概要信息用于预先建立自动机,由此降低所述句法解析装置的初始开销。

Patent Agency Ranking