一种基于神经网络的网页数据智能爬取方法

    公开(公告)号:CN114661973A

    公开(公告)日:2022-06-24

    申请号:CN202210262920.5

    申请日:2022-03-17

    Applicant: 辽宁大学

    Abstract: 一种基于神经网络的网页数据智能爬取方法,本发明包括以下步骤:输入待爬取数据源网址;启动爬虫代码库与网页模板库,遍历网页模板库中的网页样式,若网页模板库中不存在与待爬取网页相同的样式,则将该网页样式添加到网页模板库,否则启动领域知识库将符合条件的网页添加到队列;爬虫程序根据所选择的关键字来爬取队列中的网页,并将数据存入数据队列中;从数据队列中读取数据,将数据输入到神经网络模型进行打分,并将分值大于阈值的数据存入数据库,评分完毕后将所有数据作为样本输入神经网络进行优化。神经网络模型通过新数据的优化来提升未来神经网络模型的评分准确度。通过本发明,有效提高了从网页采集数据的准确性和效率。

    一种基于神经网络的网页数据智能爬取方法

    公开(公告)号:CN114661973B

    公开(公告)日:2024-08-16

    申请号:CN202210262920.5

    申请日:2022-03-17

    Applicant: 辽宁大学

    Abstract: 一种基于神经网络的网页数据智能爬取方法,本发明包括以下步骤:输入待爬取数据源网址;启动爬虫代码库与网页模板库,遍历网页模板库中的网页样式,若网页模板库中不存在与待爬取网页相同的样式,则将该网页样式添加到网页模板库,否则启动领域知识库将符合条件的网页添加到队列;爬虫程序根据所选择的关键字来爬取队列中的网页,并将数据存入数据队列中;从数据队列中读取数据,将数据输入到神经网络模型进行打分,并将分值大于阈值的数据存入数据库,评分完毕后将所有数据作为样本输入神经网络进行优化。神经网络模型通过新数据的优化来提升未来神经网络模型的评分准确度。通过本发明,有效提高了从网页采集数据的准确性和效率。

Patent Agency Ranking