一种网页结构化数据自适应提取方法

    公开(公告)号:CN110968761B

    公开(公告)日:2022-07-08

    申请号:CN201911196582.4

    申请日:2019-11-29

    Applicant: 福州大学

    Abstract: 本发明涉及一种网页结构化数据自适应提取方法,首先封装抽取模板,根据抽取模板判断目标网页的结构是否改变,若未改变则根据抽取模板中的数据的路径找到目标网页中的数据;若目标网页的结构改变,则计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域,进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点。本发明在网页结构变化后仍然能够正确抽取出目标数据。

    一种网页结构化数据自适应提取方法

    公开(公告)号:CN110968761A

    公开(公告)日:2020-04-07

    申请号:CN201911196582.4

    申请日:2019-11-29

    Applicant: 福州大学

    Abstract: 本发明涉及一种网页结构化数据自适应提取方法,首先封装抽取模板,根据抽取模板判断目标网页的结构是否改变,若未改变则根据抽取模板中的数据的路径找到目标网页中的数据;若目标网页的结构改变,则计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域,进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点。本发明在网页结构变化后仍然能够正确抽取出目标数据。

Patent Agency Ranking