一种基于实体的自底向上Web数据抽取方法

    公开(公告)号:CN102262658A

    公开(公告)日:2011-11-30

    申请号:CN201110196449.6

    申请日:2011-07-13

    Applicant: 东北大学

    Abstract: 本发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括:选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。

    一种基于实体的自底向上Web数据抽取方法

    公开(公告)号:CN102262658B

    公开(公告)日:2013-10-16

    申请号:CN201110196449.6

    申请日:2011-07-13

    Applicant: 东北大学

    Abstract: 本发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括:选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。

Patent Agency Ranking